Dynamic thermal management for noc-based many-core systems

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Silva, Alzemiro Henrique Lucas da lattes
Orientador(a): Moraes, Fernando Gehm lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://tede2.pucrs.br/tede2/handle/tede/9831
Resumo: Nodos tecnológicos recentes permitem fabricar bilhões de transistores em uma pequena área de silício, replicando estruturas idênticas, resultando em sistemas manycore. No entanto, a densidade de potência pode limitar a quantidade de potência que o sistema pode consumir. Um many-core em seu desempenho máximo pode levar a violar temperatura segura e, consequentemente, resultar em problemas de confiabilidade. Técnicas de gerenciamento térmico dinâmico (DTM) foram propostas para garantir que sistemas many-core funcionem com bom desempenho sem comprometer a confiabilidade. Técnicas DTM dependem de dados precisos de monitoramento de temperatura. Esta Tese revisa trabalhos recentes de DTM e propõe um novo método para permitir o monitoramento da temperatura em tempo de execução em um sistema many-core, novas heurísticas tendo por função custo a temperatura, bem como métodos de atuação, mapeamento e migração de tarefas e controle dinâmico de frequência e tensão (DVFS). Os trabalhos do estado-daarte sobre técnicas de DTM apresentam heurísticas complexas de atuação em tempo de execução, com foco principalmente no mapeamento de tarefas, e não se apresentam métodos de monitoramento de temperatura, comprometendo a aplicabilidade em sistemas reais. O estado da arte também apresenta trabalhos voltados ao gerenciamento dinâmico de confiabilidade (DRM), onde o objetivo principal é garantir maior confiabilidade ao sistema, utilizando as mesmas técnicas de atuação para controlar a temperatura. Esta Tese também revisa alguns dos efeitos de envelhecimento em circuitos integrados e analisa resultados de confiabilidade relacionados ao tempo de vida para as heurísticas propostas. As principais contribuições desta Tese incluem: (i) um acelerador de hardware para estimativa térmica (TEA), (ii) uma heurística de gerenciamento de temperatura proporcional, integral e derivativa (PIDTM); (iii) uma heurística de gerenciamento de temperatura tendo por função custo restrições de energia (TMEC). TEA possibilitou o monitoramento preciso da temperatura em tempo de execução no many-core de referência, permitindo a validação das propostas de DTM. O PIDTM reduziu em até 7,15% a temperatura de pico em um cenário de alta carga de trabalho, enquanto o TMEC melhorou em até 82,9% a vida útil esperada do sistema.