DC Health: detecção de anomalias online em datacenters

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Lopes Neto, Walter
Orientador(a): Barroca Filho, Itamir de Morais
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Rio Grande do Norte
Programa de Pós-Graduação: PROGRAMA DE PÓS-GRADUAÇÃO EM TECNOLOGIA DA INFORMAÇÃO
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufrn.br/handle/123456789/49528
Resumo: Datacenters são ambientes críticos para a disponibilidade de serviços baseados em tecnologia. Visando a alta disponibilidade desses serviços, métricas de performance dos nós, como Máquinas Virtuais (VM) ou clusters de VMs são amplamente monitoradas. Essas métricas, como nível de utilização de CPU e memória, podem apresentar padrões anômalos associados a falhas e a degradação de desempenho, culminando na exaustão de recursos e na falha total do nó. A detecção precoce de anomalias, isto é, de padrões em dados com comportamento diferente do esperado, pode possibilitar medidas de remediação, como migração de VMs e realocação de recursos, antes que perdas ocorram. Contudo, ferramentas de monitoramento tradicionais geralmente usam limites fixos para a detecção de problemas nos nós e carecem de maneiras automáticas para detectar anomalias em tempo de execução. Neste sentido, técnicas de aprendizado de máquina têm sido reportadas para detectar anomalias em sistemas computacionais com abordagens online e offline. Este trabalho propõe a aplicação denominada DC Health, como uma abordagem para antecipar a detecção online de anomalias em nós de datacenters. O objetivo do DC Health é detectar anomalias no comportamento de hosts e alertar aos operadores do datacenter, de forma que medidas de investigação e remediação possam ser tomadas. Para isso, esta pesquisa foi conduzida a partir de um i) Mapeamento Sistemático de Literatura, da ii) modelagem do problema a partir de dados reais de VMs e da iii) avaliação do DC Health usando o método prequential em 6 datasets do mundo real. Os resultados demonstraram que o DC Health se destacou em manter o consumo de memória constante enquanto processa os dados e na acurácia de detecção entre 75% e 90%. Como trabalhos futuros espera-se principalmente avaliar a ferramenta de detecção em cenários de computação em nuvem e desenvolver mecanismos automatizados de diagnóstico e remediação.