Método para detecção e predição de anomalias em séries temporais multivariadas

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Sant’Anna, Thiago Moeda
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/347
Resumo: Este trabalho de dissertação apresenta um método computacional na forma de um dataflow, por meio da abordagem de métodos de aprendizagem de máquina, com o objetivo de detectar, validar e predizer a ocorrência de anomalias em séries temporais multivariadas. Para alcançar esse objetivo são feitos estudos de métodos orientados a dados, como a rede neural Self-organizing map, o algoritmo Decision tree e a rede neural recorrente Long short-term memory. O algoritmo Self-organizing map é investigado, sob o aspecto de mineração de dados, em distinguir padrões, como agrupamentos, e fornecer informações sobre as anomalias. A rede Self-organizing map objetiva determinar um espaço de saída com dimensionalidade reduzida como sendo uma representação do espaço de entrada com dimensionalidade arbitrária em função de uma determinada similaridade métrica. Dessa maneira as anomalias foram detectadas e rotuladas. De maneira a avaliar a qualidade da rotulagem realizada, o algoritmo Decision tree é analisado por ser um classificador simbólico, sendo capaz de fornecer informações sobre a qualidade das partições em razão da entropia obtida. Por fim, a rede neural recorrente Long short-term memory é explorada em razão da capacidade de suas unidades de aprendizagem em uma estrutura conexionista, sendo capaz de aprender e predizer padrões de comportamentos em longas sequências de informações. Assim o modelo de fluxo de dados é uma composição desses três métodos para formar um detector, classificador e preditor de anomalias, mediante uma representação binária. Tendo em vista uma maior abrangência, o modelo é aplicado em conjuntos de dados reais de dois domínios distintos, sendo o primeiro na área de óleo e gás e o segundo no contexto meteorológico. Os principais resultados indicam que os modelos Long short- term memory, quando aplicados em diferentes conjuntos de dados pertencentes ao mesmo domínio, apresentam resultados promissores quanto a predição da ocorrência das anomalias, corroborando com as detecções determinadas por meio do método Self-organizing map.