Método para detecção e predição de anomalias em séries temporais multivariadas
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.lncc.br/handle/tede/347 |
Resumo: | Este trabalho de dissertação apresenta um método computacional na forma de um dataflow, por meio da abordagem de métodos de aprendizagem de máquina, com o objetivo de detectar, validar e predizer a ocorrência de anomalias em séries temporais multivariadas. Para alcançar esse objetivo são feitos estudos de métodos orientados a dados, como a rede neural Self-organizing map, o algoritmo Decision tree e a rede neural recorrente Long short-term memory. O algoritmo Self-organizing map é investigado, sob o aspecto de mineração de dados, em distinguir padrões, como agrupamentos, e fornecer informações sobre as anomalias. A rede Self-organizing map objetiva determinar um espaço de saída com dimensionalidade reduzida como sendo uma representação do espaço de entrada com dimensionalidade arbitrária em função de uma determinada similaridade métrica. Dessa maneira as anomalias foram detectadas e rotuladas. De maneira a avaliar a qualidade da rotulagem realizada, o algoritmo Decision tree é analisado por ser um classificador simbólico, sendo capaz de fornecer informações sobre a qualidade das partições em razão da entropia obtida. Por fim, a rede neural recorrente Long short-term memory é explorada em razão da capacidade de suas unidades de aprendizagem em uma estrutura conexionista, sendo capaz de aprender e predizer padrões de comportamentos em longas sequências de informações. Assim o modelo de fluxo de dados é uma composição desses três métodos para formar um detector, classificador e preditor de anomalias, mediante uma representação binária. Tendo em vista uma maior abrangência, o modelo é aplicado em conjuntos de dados reais de dois domínios distintos, sendo o primeiro na área de óleo e gás e o segundo no contexto meteorológico. Os principais resultados indicam que os modelos Long short- term memory, quando aplicados em diferentes conjuntos de dados pertencentes ao mesmo domínio, apresentam resultados promissores quanto a predição da ocorrência das anomalias, corroborando com as detecções determinadas por meio do método Self-organizing map. |