Understanding and improving GPUs’ reliability combining beam experiments with fault simulation

Detalhes bibliográficos
Autor(a) principal: Santos, Fernando Fernandes dos
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/234971
Resumo: Graphics Processing Units (GPUs) passaram de dispositivos dedicados a aplicações mul timidia e gaming, para se tornarem aceleradores de propósito geral usados em High Per formance Computing (HPC) e aplicações críticas como carros autônomos. Tal mudança no mercado das GPUs levou a um aumento nas capacidades computacionais, eficiência energética, melhoras nas ferramentas de programação e de análise de performance, e tam bém um aumento na preocupação com a confiabilidade do hardware das GPUs. Com o objetivo de avaliar a confiabilidade das GPUs, pesquisadores expõe o dispositivo a um feixe de nêutrons e realizam injeções de falhas para simular a propagação das falhas. Se por um lado experimentos de radiação provêm uma taxa de falhas realista, por outro lado eles não permitem visualizar a propagação das falhas no hardware e na aplicação. Contrariamente, a injeção de falhas permite a completa visualização da propagação de uma falha injetada, porém, na maioria das vezes os modelos de falhas são por sua vez li mitados ao que o pesquisador consegue acessar e modificar, o que pode levar a resultados não realísticos. Consequentemente, uma metodologia para estimar com precisão a taxa de falhas de um dispositivo é necessária para responder duas questões fundamentais na avaliação da confiabilidade das GPUs: Se a injeção de falhas consegue prover resultados representativos que podem ser usados para estimar a taxa Failure In Time (FIT) de códi gos executando em GPUs, e se os modelos de falhas que consideram a modificação de um único bit ou dois bits são modelos acurados para simular falhas em uma GPU. Sendo assim, essa tese propõe uma nova metodologia para estimar a taxa Failure In Time de GPUs NVIDIA. A metodologia proposta é possível através da comparação e combinação dos resultados de experimentos de radiação realizados em um feixe de nêutrons de alta energia, que correspondem por mais de 13 milhões de anos de exposição no fluxo terres tre natural, e extensivos experimentos utilizando simulação de falhas (usando SASSIFI e NVBITFI), e profiling de aplicações que requerem mais de 1,000 horas de GPU. Os resultados mostram que, para a maioria dos casos, as taxas de Silent Data Corruptions (SDCs) estimadas são suficientemente perto (diferenças menores que 5×) das estimadas experimentalmente nos testes de radiação. O conhecimento extraído da estimação do FIT é então usado para propor um novo modelo de falhas em oposição ao bit flip único ou duplo. O modelo de falhas proposto é baseado no erro relativo extraído de injeção de falhas em Register Transfer Level (RTL) comparando as diferenças observadas na saída das injeções. Usando uma análise experimental, arquitetural, e algorítmica, esse trabalho apresenta também duas novas soluções de tolerância a falhas para HPC e aplicações críticas. A pri meira solução proposta é a Reduced Precision Duplication With Comparison (RP-DWC), onde o principal objetivo é diminuir a sobrecarga causada pela Duplication With Compa rison (DWC) executando a cópia redundante em uma precisão reduzida. A técnica RP DWC consegue uma taxa de detecção excelente, 86%, com sobrecarga mínima, podendo chegar aumento de tempo de execução mínimos de 0.1%, e em alguns casos somente 24% de aumento no consumo de energia. O segundo tipo de solução proposta é voltado para Convolutional Neural Network, onde duas modificações foram apresentadas. A técnica já conhecida, Algorithm Based Fault Tolerance (ABFT) empregada as multiplicações de matrizes (maior parte do processamento das CNNs) conseguem corrigir mais de 60%
id URGS_0ced2854a0aea9b9daf6541f0041fb20
oai_identifier_str oai:www.lume.ufrgs.br:10183/234971
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Santos, Fernando Fernandes dosRech, PaoloCarro, Luigi2022-02-10T04:36:19Z2021http://hdl.handle.net/10183/234971001136966Graphics Processing Units (GPUs) passaram de dispositivos dedicados a aplicações mul timidia e gaming, para se tornarem aceleradores de propósito geral usados em High Per formance Computing (HPC) e aplicações críticas como carros autônomos. Tal mudança no mercado das GPUs levou a um aumento nas capacidades computacionais, eficiência energética, melhoras nas ferramentas de programação e de análise de performance, e tam bém um aumento na preocupação com a confiabilidade do hardware das GPUs. Com o objetivo de avaliar a confiabilidade das GPUs, pesquisadores expõe o dispositivo a um feixe de nêutrons e realizam injeções de falhas para simular a propagação das falhas. Se por um lado experimentos de radiação provêm uma taxa de falhas realista, por outro lado eles não permitem visualizar a propagação das falhas no hardware e na aplicação. Contrariamente, a injeção de falhas permite a completa visualização da propagação de uma falha injetada, porém, na maioria das vezes os modelos de falhas são por sua vez li mitados ao que o pesquisador consegue acessar e modificar, o que pode levar a resultados não realísticos. Consequentemente, uma metodologia para estimar com precisão a taxa de falhas de um dispositivo é necessária para responder duas questões fundamentais na avaliação da confiabilidade das GPUs: Se a injeção de falhas consegue prover resultados representativos que podem ser usados para estimar a taxa Failure In Time (FIT) de códi gos executando em GPUs, e se os modelos de falhas que consideram a modificação de um único bit ou dois bits são modelos acurados para simular falhas em uma GPU. Sendo assim, essa tese propõe uma nova metodologia para estimar a taxa Failure In Time de GPUs NVIDIA. A metodologia proposta é possível através da comparação e combinação dos resultados de experimentos de radiação realizados em um feixe de nêutrons de alta energia, que correspondem por mais de 13 milhões de anos de exposição no fluxo terres tre natural, e extensivos experimentos utilizando simulação de falhas (usando SASSIFI e NVBITFI), e profiling de aplicações que requerem mais de 1,000 horas de GPU. Os resultados mostram que, para a maioria dos casos, as taxas de Silent Data Corruptions (SDCs) estimadas são suficientemente perto (diferenças menores que 5×) das estimadas experimentalmente nos testes de radiação. O conhecimento extraído da estimação do FIT é então usado para propor um novo modelo de falhas em oposição ao bit flip único ou duplo. O modelo de falhas proposto é baseado no erro relativo extraído de injeção de falhas em Register Transfer Level (RTL) comparando as diferenças observadas na saída das injeções. Usando uma análise experimental, arquitetural, e algorítmica, esse trabalho apresenta também duas novas soluções de tolerância a falhas para HPC e aplicações críticas. A pri meira solução proposta é a Reduced Precision Duplication With Comparison (RP-DWC), onde o principal objetivo é diminuir a sobrecarga causada pela Duplication With Compa rison (DWC) executando a cópia redundante em uma precisão reduzida. A técnica RP DWC consegue uma taxa de detecção excelente, 86%, com sobrecarga mínima, podendo chegar aumento de tempo de execução mínimos de 0.1%, e em alguns casos somente 24% de aumento no consumo de energia. O segundo tipo de solução proposta é voltado para Convolutional Neural Network, onde duas modificações foram apresentadas. A técnica já conhecida, Algorithm Based Fault Tolerance (ABFT) empregada as multiplicações de matrizes (maior parte do processamento das CNNs) conseguem corrigir mais de 60%Graphics Processing Units (GPUs) have moved from being dedicated devices for multi media and gaming applications to general-purpose accelerators, employed in High Perfor mance Computing (HPC) and safety-critical applications, such as autonomous vehicles. This market shift led to a burst in the GPU’s computing capabilities and efficiency, signif icant improvements in the programming frameworks and performance evaluation tools, and a sudden concern about their hardware reliability. In order to evaluate the GPU reliability, researchers expose a device to a neutron beam and perform fault injection to simulate the fault propagation. While beam experiments provide a very realistic error rate of the device, it lacks fault propagation visibility. Con trarily, fault injection allows the complete visibility of the fault propagation, but the fault simulation and the error model are often limited to user-accessible resources and may lead to unrealistic results. Consequently, a methodology to accurately estimate the error rate of a device is necessary to answer two of the fundamental open questions in GPU reliability evaluation: (1) whether fault simulation provides representative results and can be used to predict the Failure In Time (FIT) rates of codes running on GPUs. (2) are the single and double bit-flip accurate error models to simulate faults on a GPU. This thesis presents a novel FIT estimation approach to predict the NVIDIA GPUs’ er ror rate. The proposed FIT estimation is achieved by comparing and combining high energy neutron beam experiments that account for more than 13 million natural terres trial exposure years, an extensive architectural-level fault simulation (using SASSIFI and NVBitFI), and detailed application-level profiling, requiring more than 1,000 GPU hours. Results show that, in most cases, the estimated Silent Data Corruption (SDC) rate is suf ficiently close (differences lower than 5×) to the experimentally measured SDC rates. The knowledge from the FIT estimation is then used to present a new error model based on the relative error in opposition to single/double bit flip. The relative error is based on a new method that extracts the relative error differences from a fault injection at the Register-Transfer Level (RTL). Using the experimental, architectural, and algorithmic analysis, this work presents also two novel hardening solutions for HPC and safety-critical applications: (1) Reduced Precision Duplication With Comparison (RP-DWC). RP-DWC’s primary goal is to lower the overhead of Duplication With Comparison (DWC) by executing the redundant copy in reduced precision. RP-DWC achieves an excellent coverage (up to 86%) with minimal overheads (as low as 0.1% time and 24% energy consumption overhead). (2) Dedicated software solutions for hardening Convolutional Neural Networks (CNNs). The Algorithm-Based Fault Tolerance (ABFT) employed to the matrix multiplication (the core of the CNNs) can correct more than 60% of the critical SDCs in a CNN, while re-designing the CNN’s max pool layers leads to a detection up to 98% of SDCs. Additionally, this work is the first to evaluate the CNNs’ error rate and CNNs’ hardening efficiency on neutron beam experiments.application/pdfengComputação : Alto desempenhoConfiabilidade : ComputadoresInjeção de falhasGPUsReliabilityHigh Performance ComputingSafety critical systemsUnderstanding and improving GPUs’ reliability combining beam experiments with fault simulationEntendendo e melhorando a confiabilidade das GPUs combinando experimentos com feixe e injeção de falhas info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2021doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001136966.pdf.txt001136966.pdf.txtExtracted Texttext/plain305023http://www.lume.ufrgs.br/bitstream/10183/234971/2/001136966.pdf.txt953f9070119cb58d09b9a2de1e60eb52MD52ORIGINAL001136966.pdfTexto completo (inglês)application/pdf9397539http://www.lume.ufrgs.br/bitstream/10183/234971/1/001136966.pdfd7dc222e533f0d59e4ea6409f50180a1MD5110183/2349712022-02-22 04:58:18.212834oai:www.lume.ufrgs.br:10183/234971Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-02-22T07:58:18Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
dc.title.alternative.pt.fl_str_mv Entendendo e melhorando a confiabilidade das GPUs combinando experimentos com feixe e injeção de falhas
title Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
spellingShingle Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
Santos, Fernando Fernandes dos
Computação : Alto desempenho
Confiabilidade : Computadores
Injeção de falhas
GPUs
Reliability
High Performance Computing
Safety critical systems
title_short Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
title_full Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
title_fullStr Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
title_full_unstemmed Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
title_sort Understanding and improving GPUs’ reliability combining beam experiments with fault simulation
author Santos, Fernando Fernandes dos
author_facet Santos, Fernando Fernandes dos
author_role author
dc.contributor.author.fl_str_mv Santos, Fernando Fernandes dos
dc.contributor.advisor1.fl_str_mv Rech, Paolo
dc.contributor.advisor-co1.fl_str_mv Carro, Luigi
contributor_str_mv Rech, Paolo
Carro, Luigi
dc.subject.por.fl_str_mv Computação : Alto desempenho
Confiabilidade : Computadores
Injeção de falhas
topic Computação : Alto desempenho
Confiabilidade : Computadores
Injeção de falhas
GPUs
Reliability
High Performance Computing
Safety critical systems
dc.subject.eng.fl_str_mv GPUs
Reliability
High Performance Computing
Safety critical systems
description Graphics Processing Units (GPUs) passaram de dispositivos dedicados a aplicações mul timidia e gaming, para se tornarem aceleradores de propósito geral usados em High Per formance Computing (HPC) e aplicações críticas como carros autônomos. Tal mudança no mercado das GPUs levou a um aumento nas capacidades computacionais, eficiência energética, melhoras nas ferramentas de programação e de análise de performance, e tam bém um aumento na preocupação com a confiabilidade do hardware das GPUs. Com o objetivo de avaliar a confiabilidade das GPUs, pesquisadores expõe o dispositivo a um feixe de nêutrons e realizam injeções de falhas para simular a propagação das falhas. Se por um lado experimentos de radiação provêm uma taxa de falhas realista, por outro lado eles não permitem visualizar a propagação das falhas no hardware e na aplicação. Contrariamente, a injeção de falhas permite a completa visualização da propagação de uma falha injetada, porém, na maioria das vezes os modelos de falhas são por sua vez li mitados ao que o pesquisador consegue acessar e modificar, o que pode levar a resultados não realísticos. Consequentemente, uma metodologia para estimar com precisão a taxa de falhas de um dispositivo é necessária para responder duas questões fundamentais na avaliação da confiabilidade das GPUs: Se a injeção de falhas consegue prover resultados representativos que podem ser usados para estimar a taxa Failure In Time (FIT) de códi gos executando em GPUs, e se os modelos de falhas que consideram a modificação de um único bit ou dois bits são modelos acurados para simular falhas em uma GPU. Sendo assim, essa tese propõe uma nova metodologia para estimar a taxa Failure In Time de GPUs NVIDIA. A metodologia proposta é possível através da comparação e combinação dos resultados de experimentos de radiação realizados em um feixe de nêutrons de alta energia, que correspondem por mais de 13 milhões de anos de exposição no fluxo terres tre natural, e extensivos experimentos utilizando simulação de falhas (usando SASSIFI e NVBITFI), e profiling de aplicações que requerem mais de 1,000 horas de GPU. Os resultados mostram que, para a maioria dos casos, as taxas de Silent Data Corruptions (SDCs) estimadas são suficientemente perto (diferenças menores que 5×) das estimadas experimentalmente nos testes de radiação. O conhecimento extraído da estimação do FIT é então usado para propor um novo modelo de falhas em oposição ao bit flip único ou duplo. O modelo de falhas proposto é baseado no erro relativo extraído de injeção de falhas em Register Transfer Level (RTL) comparando as diferenças observadas na saída das injeções. Usando uma análise experimental, arquitetural, e algorítmica, esse trabalho apresenta também duas novas soluções de tolerância a falhas para HPC e aplicações críticas. A pri meira solução proposta é a Reduced Precision Duplication With Comparison (RP-DWC), onde o principal objetivo é diminuir a sobrecarga causada pela Duplication With Compa rison (DWC) executando a cópia redundante em uma precisão reduzida. A técnica RP DWC consegue uma taxa de detecção excelente, 86%, com sobrecarga mínima, podendo chegar aumento de tempo de execução mínimos de 0.1%, e em alguns casos somente 24% de aumento no consumo de energia. O segundo tipo de solução proposta é voltado para Convolutional Neural Network, onde duas modificações foram apresentadas. A técnica já conhecida, Algorithm Based Fault Tolerance (ABFT) empregada as multiplicações de matrizes (maior parte do processamento das CNNs) conseguem corrigir mais de 60%
publishDate 2021
dc.date.issued.fl_str_mv 2021
dc.date.accessioned.fl_str_mv 2022-02-10T04:36:19Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/234971
dc.identifier.nrb.pt_BR.fl_str_mv 001136966
url http://hdl.handle.net/10183/234971
identifier_str_mv 001136966
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/234971/2/001136966.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/234971/1/001136966.pdf
bitstream.checksum.fl_str_mv 953f9070119cb58d09b9a2de1e60eb52
d7dc222e533f0d59e4ea6409f50180a1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831314647356014592