Understanding and improving GPUs’ reliability combining beam experiments with fault simulation

Santos, Fernando Fernandes dos

Understanding and improving GPUs’ reliability combining beam experiments with fault simulation

Detalhes bibliográficos
Autor(a) principal:	Santos, Fernando Fernandes dos
Data de Publicação:	2021
Tipo de documento:	Tese
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/234971
Resumo:	Graphics Processing Units (GPUs) passaram de dispositivos dedicados a aplicações mul timidia e gaming, para se tornarem aceleradores de propósito geral usados em High Per formance Computing (HPC) e aplicações críticas como carros autônomos. Tal mudança no mercado das GPUs levou a um aumento nas capacidades computacionais, eficiência energética, melhoras nas ferramentas de programação e de análise de performance, e tam bém um aumento na preocupação com a confiabilidade do hardware das GPUs. Com o objetivo de avaliar a confiabilidade das GPUs, pesquisadores expõe o dispositivo a um feixe de nêutrons e realizam injeções de falhas para simular a propagação das falhas. Se por um lado experimentos de radiação provêm uma taxa de falhas realista, por outro lado eles não permitem visualizar a propagação das falhas no hardware e na aplicação. Contrariamente, a injeção de falhas permite a completa visualização da propagação de uma falha injetada, porém, na maioria das vezes os modelos de falhas são por sua vez li mitados ao que o pesquisador consegue acessar e modificar, o que pode levar a resultados não realísticos. Consequentemente, uma metodologia para estimar com precisão a taxa de falhas de um dispositivo é necessária para responder duas questões fundamentais na avaliação da confiabilidade das GPUs: Se a injeção de falhas consegue prover resultados representativos que podem ser usados para estimar a taxa Failure In Time (FIT) de códi gos executando em GPUs, e se os modelos de falhas que consideram a modificação de um único bit ou dois bits são modelos acurados para simular falhas em uma GPU. Sendo assim, essa tese propõe uma nova metodologia para estimar a taxa Failure In Time de GPUs NVIDIA. A metodologia proposta é possível através da comparação e combinação dos resultados de experimentos de radiação realizados em um feixe de nêutrons de alta energia, que correspondem por mais de 13 milhões de anos de exposição no fluxo terres tre natural, e extensivos experimentos utilizando simulação de falhas (usando SASSIFI e NVBITFI), e profiling de aplicações que requerem mais de 1,000 horas de GPU. Os resultados mostram que, para a maioria dos casos, as taxas de Silent Data Corruptions (SDCs) estimadas são suficientemente perto (diferenças menores que 5×) das estimadas experimentalmente nos testes de radiação. O conhecimento extraído da estimação do FIT é então usado para propor um novo modelo de falhas em oposição ao bit flip único ou duplo. O modelo de falhas proposto é baseado no erro relativo extraído de injeção de falhas em Register Transfer Level (RTL) comparando as diferenças observadas na saída das injeções. Usando uma análise experimental, arquitetural, e algorítmica, esse trabalho apresenta também duas novas soluções de tolerância a falhas para HPC e aplicações críticas. A pri meira solução proposta é a Reduced Precision Duplication With Comparison (RP-DWC), onde o principal objetivo é diminuir a sobrecarga causada pela Duplication With Compa rison (DWC) executando a cópia redundante em uma precisão reduzida. A técnica RP DWC consegue uma taxa de detecção excelente, 86%, com sobrecarga mínima, podendo chegar aumento de tempo de execução mínimos de 0.1%, e em alguns casos somente 24% de aumento no consumo de energia. O segundo tipo de solução proposta é voltado para Convolutional Neural Network, onde duas modificações foram apresentadas. A técnica já conhecida, Algorithm Based Fault Tolerance (ABFT) empregada as multiplicações de matrizes (maior parte do processamento das CNNs) conseguem corrigir mais de 60%

Metadados do item

id	URGS_0ced2854a0aea9b9daf6541f0041fb20
oai_identifier_str	oai:www.lume.ufrgs.br:10183/234971
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Santos, Fernando Fernandes dosRech, PaoloCarro, Luigi2022-02-10T04:36:19Z2021http://hdl.handle.net/10183/234971001136966Graphics Processing Units (GPUs) passaram de dispositivos dedicados a aplicações mul timidia e gaming, para se tornarem aceleradores de propósito geral usados em High Per formance Computing (HPC) e aplicações críticas como carros autônomos. Tal mudança no mercado das GPUs levou a um aumento nas capacidades computacionais, eficiência energética, melhoras nas ferramentas de programação e de análise de performance, e tam bém um aumento na preocupação com a confiabilidade do hardware das GPUs. Com o objetivo de avaliar a confiabilidade das GPUs, pesquisadores expõe o dispositivo a um feixe de nêutrons e realizam injeções de falhas para simular a propagação das falhas. Se por um lado experimentos de radiação provêm uma taxa de falhas realista, por outro lado eles não permitem visualizar a propagação das falhas no hardware e na aplicação. Contrariamente, a injeção de falhas permite a completa visualização da propagação de uma falha injetada, porém, na maioria das vezes os modelos de falhas são por sua vez li mitados ao que o pesquisador consegue acessar e modificar, o que pode levar a resultados não realísticos. Consequentemente, uma metodologia para estimar com precisão a taxa de falhas de um dispositivo é necessária para responder duas questões fundamentais na avaliação da confiabilidade das GPUs: Se a injeção de falhas consegue prover resultados representativos que podem ser usados para estimar a taxa Failure In Time (FIT) de códi gos executando em GPUs, e se os modelos de falhas que consideram a modificação de um único bit ou dois bits são modelos acurados para simular falhas em uma GPU. Sendo assim, essa tese propõe uma nova metodologia para estimar a taxa Failure In Time de GPUs NVIDIA. A metodologia proposta é possível através da comparação e combinação dos resultados de experimentos de radiação realizados em um feixe de nêutrons de alta energia, que correspondem por mais de 13 milhões de anos de exposição no fluxo terres tre natural, e extensivos experimentos utilizando simulação de falhas (usando SASSIFI e NVBITFI), e profiling de aplicações que requerem mais de 1,000 horas de GPU. Os resultados mostram que, para a maioria dos casos, as taxas de Silent Data Corruptions (SDCs) estimadas são suficientemente perto (diferenças menores que 5×) das estimadas experimentalmente nos testes de radiação. O conhecimento extraído da estimação do FIT é então usado para propor um novo modelo de falhas em oposição ao bit flip único ou duplo. O modelo de falhas proposto é baseado no erro relativo extraído de injeção de falhas em Register Transfer Level (RTL) comparando as diferenças observadas na saída das injeções. Usando uma análise experimental, arquitetural, e algorítmica, esse trabalho apresenta também duas novas soluções de tolerância a falhas para HPC e aplicações críticas. A pri meira solução proposta é a Reduced Precision Duplication With Comparison (RP-DWC), onde o principal objetivo é diminuir a sobrecarga causada pela Duplication With Compa rison (DWC) executando a cópia redundante em uma precisão reduzida. A técnica RP DWC consegue uma taxa de detecção excelente, 86%, com sobrecarga mínima, podendo chegar aumento de tempo de execução mínimos de 0.1%, e em alguns casos somente 24% de aumento no consumo de energia. O segundo tipo de solução proposta é voltado para Convolutional Neural Network, onde duas modificações foram apresentadas. A técnica já conhecida, Algorithm Based Fault Tolerance (ABFT) empregada as multiplicações de matrizes (maior parte do processamento das CNNs) conseguem corrigir mais de 60%Graphics Processing Units (GPUs) have moved from being dedicated devices for multi media and gaming applications to general-purpose accelerators, employed in High Perfor mance Computing (HPC) and safety-critical applications, such as autonomous vehicles. This market shift led to a burst in the GPU’s computing capabilities and efficiency, signif icant improvements in the programming frameworks and performance evaluation tools, and a sudden concern about their hardware reliability. In order to evaluate the GPU reliability, researchers expose a device to a neutron beam and perform fault injection to simulate the fault propagation. While beam experiments provide a very realistic error rate of the device, it lacks fault propagation visibility. Con trarily, fault injection allows the complete visibility of the fault propagation, but the fault simulation and the error model are often limited to user-accessible resources and may lead to unrealistic results. Consequently, a methodology to accurately estimate the error rate of a device is necessary to answer two of the fundamental open questions in GPU reliability evaluation: (1) whether fault simulation provides representative results and can be used to predict the Failure In Time (FIT) rates of codes running on GPUs. (2) are the single and double bit-flip accurate error models to simulate faults on a GPU. This thesis presents a novel FIT estimation approach to predict the NVIDIA GPUs’ er ror rate. The proposed FIT estimation is achieved by comparing and combining high energy neutron beam experiments that account for more than 13 million natural terres trial exposure years, an extensive architectural-level fault simulation (using SASSIFI and NVBitFI), and detailed application-level profiling, requiring more than 1,000 GPU hours. Results show that, in most cases, the estimated Silent Data Corruption (SDC) rate is suf ficiently close (differences lower than 5×) to the experimentally measured SDC rates. The knowledge from the FIT estimation is then used to present a new error model based on the relative error in opposition to single/double bit flip. The relative error is based on a new method that extracts the relative error differences from a fault injection at the Register-Transfer Level (RTL). Using the experimental, architectural, and algorithmic analysis, this work presents also two novel hardening solutions for HPC and safety-critical applications: (1) Reduced Precision Duplication With Comparison (RP-DWC). RP-DWC’s primary goal is to lower the overhead of Duplication With Comparison (DWC) by executing the redundant copy in reduced precision. RP-DWC achieves an excellent coverage (up to 86%) with minimal overheads (as low as 0.1% time and 24% energy consumption overhead). (2) Dedicated software solutions for hardening Convolutional Neural Networks (CNNs). The Algorithm-Based Fault Tolerance (ABFT) employed to the matrix multiplication (the core of the CNNs) can correct more than 60% of the critical SDCs in a CNN, while re-designing the CNN’s max pool layers leads to a detection up to 98% of SDCs. Additionally, this work is the first to evaluate the CNNs’ error rate and CNNs’ hardening efficiency on neutron beam experiments.application/pdfengComputação : Alto desempenhoConfiabilidade : ComputadoresInjeção de falhasGPUsReliabilityHigh Performance ComputingSafety critical systemsUnderstanding and improving GPUs’ reliability combining beam experiments with fault simulationEntendendo e melhorando a confiabilidade das GPUs combinando experimentos com feixe e injeção de falhas info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2021doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001136966.pdf.txt001136966.pdf.txtExtracted Texttext/plain305023http://www.lume.ufrgs.br/bitstream/10183/234971/2/001136966.pdf.txt953f9070119cb58d09b9a2de1e60eb52MD52ORIGINAL001136966.pdfTexto completo (inglês)application/pdf9397539http://www.lume.ufrgs.br/bitstream/10183/234971/1/001136966.pdfd7dc222e533f0d59e4ea6409f50180a1MD5110183/2349712022-02-22 04:58:18.212834oai:www.lume.ufrgs.br:10183/234971Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532022-02-22T07:58:18Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
dc.title.alternative.pt.fl_str_mv	Entendendo e melhorando a confiabilidade das GPUs combinando experimentos com feixe e injeção de falhas
title	Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
spellingShingle	Understanding and improving GPUs’ reliability combining beam experiments with fault simulation Santos, Fernando Fernandes dos Computação : Alto desempenho Confiabilidade : Computadores Injeção de falhas GPUs Reliability High Performance Computing Safety critical systems
title_short	Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
title_full	Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
title_fullStr	Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
title_full_unstemmed	Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
title_sort	Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
author	Santos, Fernando Fernandes dos
author_facet	Santos, Fernando Fernandes dos
author_role	author
dc.contributor.author.fl_str_mv	Santos, Fernando Fernandes dos
dc.contributor.advisor1.fl_str_mv	Rech, Paolo
dc.contributor.advisor-co1.fl_str_mv	Carro, Luigi
contributor_str_mv	Rech, Paolo Carro, Luigi
dc.subject.por.fl_str_mv	Computação : Alto desempenho Confiabilidade : Computadores Injeção de falhas
topic	Computação : Alto desempenho Confiabilidade : Computadores Injeção de falhas GPUs Reliability High Performance Computing Safety critical systems
dc.subject.eng.fl_str_mv	GPUs Reliability High Performance Computing Safety critical systems
description	Graphics Processing Units (GPUs) passaram de dispositivos dedicados a aplicações mul timidia e gaming, para se tornarem aceleradores de propósito geral usados em High Per formance Computing (HPC) e aplicações críticas como carros autônomos. Tal mudança no mercado das GPUs levou a um aumento nas capacidades computacionais, eficiência energética, melhoras nas ferramentas de programação e de análise de performance, e tam bém um aumento na preocupação com a confiabilidade do hardware das GPUs. Com o objetivo de avaliar a confiabilidade das GPUs, pesquisadores expõe o dispositivo a um feixe de nêutrons e realizam injeções de falhas para simular a propagação das falhas. Se por um lado experimentos de radiação provêm uma taxa de falhas realista, por outro lado eles não permitem visualizar a propagação das falhas no hardware e na aplicação. Contrariamente, a injeção de falhas permite a completa visualização da propagação de uma falha injetada, porém, na maioria das vezes os modelos de falhas são por sua vez li mitados ao que o pesquisador consegue acessar e modificar, o que pode levar a resultados não realísticos. Consequentemente, uma metodologia para estimar com precisão a taxa de falhas de um dispositivo é necessária para responder duas questões fundamentais na avaliação da confiabilidade das GPUs: Se a injeção de falhas consegue prover resultados representativos que podem ser usados para estimar a taxa Failure In Time (FIT) de códi gos executando em GPUs, e se os modelos de falhas que consideram a modificação de um único bit ou dois bits são modelos acurados para simular falhas em uma GPU. Sendo assim, essa tese propõe uma nova metodologia para estimar a taxa Failure In Time de GPUs NVIDIA. A metodologia proposta é possível através da comparação e combinação dos resultados de experimentos de radiação realizados em um feixe de nêutrons de alta energia, que correspondem por mais de 13 milhões de anos de exposição no fluxo terres tre natural, e extensivos experimentos utilizando simulação de falhas (usando SASSIFI e NVBITFI), e profiling de aplicações que requerem mais de 1,000 horas de GPU. Os resultados mostram que, para a maioria dos casos, as taxas de Silent Data Corruptions (SDCs) estimadas são suficientemente perto (diferenças menores que 5×) das estimadas experimentalmente nos testes de radiação. O conhecimento extraído da estimação do FIT é então usado para propor um novo modelo de falhas em oposição ao bit flip único ou duplo. O modelo de falhas proposto é baseado no erro relativo extraído de injeção de falhas em Register Transfer Level (RTL) comparando as diferenças observadas na saída das injeções. Usando uma análise experimental, arquitetural, e algorítmica, esse trabalho apresenta também duas novas soluções de tolerância a falhas para HPC e aplicações críticas. A pri meira solução proposta é a Reduced Precision Duplication With Comparison (RP-DWC), onde o principal objetivo é diminuir a sobrecarga causada pela Duplication With Compa rison (DWC) executando a cópia redundante em uma precisão reduzida. A técnica RP DWC consegue uma taxa de detecção excelente, 86%, com sobrecarga mínima, podendo chegar aumento de tempo de execução mínimos de 0.1%, e em alguns casos somente 24% de aumento no consumo de energia. O segundo tipo de solução proposta é voltado para Convolutional Neural Network, onde duas modificações foram apresentadas. A técnica já conhecida, Algorithm Based Fault Tolerance (ABFT) empregada as multiplicações de matrizes (maior parte do processamento das CNNs) conseguem corrigir mais de 60%
publishDate	2021
dc.date.issued.fl_str_mv	2021
dc.date.accessioned.fl_str_mv	2022-02-10T04:36:19Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/234971
dc.identifier.nrb.pt_BR.fl_str_mv	001136966
url	http://hdl.handle.net/10183/234971
identifier_str_mv	001136966
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/234971/2/001136966.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/234971/1/001136966.pdf
bitstream.checksum.fl_str_mv	953f9070119cb58d09b9a2de1e60eb52 d7dc222e533f0d59e4ea6409f50180a1
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1831314647356014592

Understanding and improving GPUs’ reliability combining beam experiments with fault simulation

Registros relacionados