Fault-tolerance at the management level in many-core systems

Fochi, Vinicius Morais

Fault-tolerance at the management level in many-core systems

Detalhes bibliográficos
Ano de defesa:	2019
Autor(a) principal:	Fochi, Vinicius Morais
Orientador(a):	Moraes, Fernando Gehm
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Pontifícia Universidade Católica do Rio Grande do Sul
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação
Departamento:	Escola Politécnica
País:	Brasil
Palavras-chave em Português:	Gerenciamento de sistemas Recuperação de Falhas Migração de Tarefas Tolerância a Falhas Admissão de Aplicativos
Palavras-chave em Inglês:	MCSoCs NoC System Management Fault-Recovery Task Migration Fault-Tolerance Application Admission BrNoC
Área do conhecimento CNPq:	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Link de acesso:	http://tede2.pucrs.br/tede2/handle/tede/8982
Resumo:	A redução dos nodos tecnológicos permitiu o surgimento de sistemas com múlti- plos núcleos de processamento utilizando redes intra-chip (MCSoCs - many-core systems- on-chip), com dezenas a centenas de elementos de processamento (PEs). Apesar do poder de processamento oferecido pelo grande numero de PEs e da flexibilidade de comunicação devido à adoção de NoCs, é necessário gerenciar os recursos do sistema para garantir sua escalabilidade. A execução das tarefas de gerência requer PEs reservados exclusivamente para executar essas ações. Uma abordagem centralizada induziria uma carga de traba- lho significativa para os PEs de gerência (MPE) em sistemas de grande escala. A adoção de abordagens distribuídas, com MPEs hierarquicamente organizadas, reduz a carga de gerência, sendo a organização adotada nesta Tese. Propostas recentes de gerência em MCSoCs focam em diferentes aspectos: potência, desempenho, utilização dos recursos do sistema. Essas técnicas são aplicadas no nível sistêmico dos MCSoCs. No entanto, nos trabalhos analisados, há uma lacuna nas propostas relacionadas a falhas permanentes nos MPEs. Esta Tese tem por objetivo abordar dois problemas principais. Primeiro, tratar fa- lhas permanentes nos MPEs, desenvolvendo um conjunto de novas técnicas para que os MCSoCs continuem a operar corretamente, sem reexecutar as aplicações em execução. Segundo, resolver a questão do ponto único de falha na comunicação dos MCSoCs com o mundo externo. A contribuição original desta Tese é uma arquitetura MCSoC distribuída, com capacidade de recuperação de falhas em pontos críticos do sistema. O método de re- cuperação inclui módulos de hardware e software, monitoramento de falhas e recuperação de gerenciamento. A proposta utiliza técnicas de migração de tarefas e heurísticas para selecionar a posição do novo MPE. Esta Tese propõe um método de recuperação quando um MPE torna-se falho. O método é escalável, capaz de atuar em sistemas de dezenas a centenas de processadores. O método é transparente para as aplicações executadas no MCSoC, com uma pequena sobrecarga no tempo de execução, observado durante a migração de gerência e migração de tarefas.

Fault-tolerance at the management level in many-core systems

Registros relacionados