Abordagens para seleção de limiares de decisão e filtros de suavização em detecção de anomalias
Ano de defesa: | 2024 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/57246 |
Resumo: | Técnicas de detecção de anomalias são amplamente utilizadas para identificar instâncias com padrões distintos do comportamento geral de um conjunto de dados. O desenvolvimento de novas técnicas, como as baseadas em aprendizado profundo, e a maior disponibilidade de dados têm alavancado ainda mais o uso da detecção de anomalias em contextos como a detecção de falhas em equipamentos industriais. Comumente, uma técnica de detecção gera um score de anomalia para cada instância, que é então usado para classificá-las entre anômalas ou normais. Esta classificação é baseada em um limiar de decisão (threshold) estabelecido de forma que se o score de uma determinada instância for superior ao threshold, esta instância é considerada anômala, caso contrário é classificada como normal. Neste trabalho foi utilizado um modelo Sparse Autoencoder (SAE) para a detecção de anomalias online que vem ganhando populari- dade neste cenário e foi investigado o impacto de diferentes abordagens não supervisionadas para definição de thresholds. Para os experimentos foi utilizada uma base de dados pública referente a um problema de detecção de anomalias no metrô da cidade do Porto. A aborda- gem de cálculo do threshold impactou fortemente as métricas de avaliação da detecção. Por exemplo, a abordagem baseada em erro máximo garantiu a menor taxa de falsos positivos. Por sua vez, a abordagem baseada em intervalo interquartil obteve o maior número de verdadeiros positivos, e, consequentemente recall, enquanto que a abordagem baseada em 99-percentil garantiu o maior F1-Score. Foi avaliado ainda o uso de três tipos de filtros passa-baixa em duas abordagens distintas para a suavização do score de anomalia. De uma forma geral, a aplicação de filtros diretamente sobre o score de anomalia maximizou verdadeiros positivos, enquanto sua aplicação após uma classificação prévia das instâncias minimizou os falsos posi- tivos. Além disso, foi verificado que a utilização do filtro foi essencial para detectar sequências de anomalias. Desta forma, a seleção de abordagens de definição de thresholds e de aplicação de filtros deve ser definida em função dos objetivos específicos do modelo. |