Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Guerra, David Motta
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/125379
Resumo: Dentro da área de mineração de dados, a detecção de anomalias diz respeito à tarefa de identificação de itens em um conjunto de dados que são substancialmente diferentes dos demais. Para algumas aplicações, essas anomalias podem representar informações valiosas, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalia em rede de computador, falha mecânica ou condição clínica crítica. Dentre os principais desafios encontrados na detecção de tais itens está a dificuldade de criação de modelos, devido à sua imprevisibilidade e dependência com o contexto dos dados. Determinado modelo geralmente funciona bem apenas em situações com características específicas de distribuição de dados, não sendo indicado para todos os cenários. Ensembles de detectores de anomalias surgiram para suprir essa deficiência, combinando algoritmos e resultando em um único método mais versátil e robusto. Neste trabalho, uma nova abordagem de detecção de anomalias foi proposta, denominada Multicriteria Outlier Detector Ensembles (MCODES), com o objetivo de alcançar melhores resultados para uma grande quantidade de conjuntos de dados distintos. Tal abordagem é não-supervisionada, uma vez que não leva em consideração informações sobre os rótulos das instâncias, e utiliza ensemble e análise multi-critério. Essa abordagem foi desenvolvida utilizando o método multi-critério para seleção de alternativas Technique for Order Preference by Similarity to Ideal Solution (TOPSIS), em que se busca a alternativa mais próxima da solução ideal e mais distante da solução não-ideal. Algumas variações para cálculos dos pesos dos critérios utilizados no TOPSIS foram criadas. Foi desenvolvido um novo algoritmo para definição dos pesos, denominado efeito manada (EM), que se baseia na premissa de que métodos de detecção de anomalias que classificam os dados de forma similar à maioria dos outros métodos tendem a ser melhores e recebem uma maior pontuação. Outros algoritmos para definição dos pesos foram utilizados, como entropia e desvio-padrão. Experimentos com essa abordagem foram realizados utilizando diferentes cenários, através de conjuntos de dados sintéticos, com o intuito de validar cenários específicos de distribuições de dados, e conjuntos de dados públicos, com o objetivo de avaliar cenários mais próximos da realidade. A abordagem proposta mostrou melhor desempenho em comparação com os modelos de detecção individuais analisados, bem como com outros modelos de ensemble, como MOA, AOM e LSCP, demonstrando sua robustez e eficácia para situações em que a forma da distribuição das instâncias em um determinado conjunto de dados é desconhecida. Palavras-chave: detecção de anomalias. análise multi-critério. ensembles. TOPSIS.