ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias

Bibliographic Details
Main Author: Alves, William Adriano
Publication Date: 2023
Format: Master thesis
Language: por
Source: Repositório Institucional da UFSCAR
Download full: https://repositorio.ufscar.br/handle/20.500.14289/18227
Summary: Anomaly (outlier) detection is one of the main problems in data mining. Since anomalies can translate into important information in numerous fields, several methods were developed to identify them, especially unsupervised methods, which is the focus of this work. To soften the need for studies on assessing and quantifying the quality of the result of these unsupervised methods, the IREOS index was proposed as the first internal evaluation technique for unsupervised anomaly detection methods. IREOS allows one to select the best algorithm and parameters for a given problem using only intrinsic information from the data. However, IREOS demands the training of many highly complex classifiers for each object in the dataset whose outlier detection solutions are being analyzed. This feature limits the application of IREOS to small datasets since the classifiers use all points in the dataset during its training. In the present work, we propose ESIREOS, the first version of IREOS that addresses its performance and processing deficiencies using Massive Parallel Computing techniques that efficiently implement horizontal computational scaling for many machine learning problems. ESIREOS also makes use of approximated Nearest Neighbor Graphs to reduce the volume of data and processing power demanded by IREOS without any significant loss in the quality of the results. We evaluate ESIREOS theoretically, estimating its asymptotic complexity and with experiments over real and synthetic datasets to attest to its effectiveness and performance compared to the original version, including large datasets. The results showed that ESIREOS resulted in a significant improvement in computational complexity when compared to the original IREOS while maintaining quality. ESIREOS showed to be capable of evaluating solutions for very large datasets, even those which IREOS was not capable of evaluating in a feasible time. Therefore, this efficient and scalable new version can be used in many scenarios, mainly, but not limited to, those with large or distributed data.
id SCAR_9d4f29ca2757d53b9f0b2dcc129bf4c8
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/18227
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Alves, William AdrianoNaldi, Murilo Coelhohttp://lattes.cnpq.br/0573662728816861Marques, Henrique Oliveirahttp://lattes.cnpq.br/6792856084528925http://lattes.cnpq.br/77582934665273687804af22-fbc7-43e2-bfdb-c085e30e51762023-07-03T15:16:11Z2023-07-03T15:16:11Z2023-05-25ALVES, William Adriano. ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18227.https://repositorio.ufscar.br/handle/20.500.14289/18227Anomaly (outlier) detection is one of the main problems in data mining. Since anomalies can translate into important information in numerous fields, several methods were developed to identify them, especially unsupervised methods, which is the focus of this work. To soften the need for studies on assessing and quantifying the quality of the result of these unsupervised methods, the IREOS index was proposed as the first internal evaluation technique for unsupervised anomaly detection methods. IREOS allows one to select the best algorithm and parameters for a given problem using only intrinsic information from the data. However, IREOS demands the training of many highly complex classifiers for each object in the dataset whose outlier detection solutions are being analyzed. This feature limits the application of IREOS to small datasets since the classifiers use all points in the dataset during its training. In the present work, we propose ESIREOS, the first version of IREOS that addresses its performance and processing deficiencies using Massive Parallel Computing techniques that efficiently implement horizontal computational scaling for many machine learning problems. ESIREOS also makes use of approximated Nearest Neighbor Graphs to reduce the volume of data and processing power demanded by IREOS without any significant loss in the quality of the results. We evaluate ESIREOS theoretically, estimating its asymptotic complexity and with experiments over real and synthetic datasets to attest to its effectiveness and performance compared to the original version, including large datasets. The results showed that ESIREOS resulted in a significant improvement in computational complexity when compared to the original IREOS while maintaining quality. ESIREOS showed to be capable of evaluating solutions for very large datasets, even those which IREOS was not capable of evaluating in a feasible time. Therefore, this efficient and scalable new version can be used in many scenarios, mainly, but not limited to, those with large or distributed data.A detecção de anomalias (outliers) é um dos principais problemas em mineração de dados, uma vez que anomalias podem representar informações importantes em numerosas áreas. Vários métodos foram desenvolvidos para identificá-las, especialmente métodos não supervisionados, foco deste trabalho. Endereçando a necessidade de estudos para avaliar e quantificar a qualidade do resultado desses métodos não supervisionados, o índice IREOS foi proposto como a primeira técnica de avaliação interna para métodos não supervisionados de detecção de anomalias. O IREOS permite selecionar o melhor algoritmo e parâmetros para um dado problema usando apenas informações intrínsecas dos dados. No entanto, o IREOS exige o treinamento de muitos classificadores com alta complexidade para cada objeto no conjunto de dados cujas soluções de detecção de anomalias estão sendo analisadas. Essa característica limita a aplicação do IREOS a conjuntos de dados pequenos, já que os classificadores necessários utilizam todos os objetos no conjunto de dados durante o treinamento. No presente trabalho, propomos o ESIREOS, a primeira versão do IREOS que aborda suas deficiências de desempenho e processamento usando técnicas de computação paralela massiva, eficientemente utilizadas para o escalonamento computacional horizontal de muitos problemas de aprendizado de máquina. O ESIREOS também usa grafos de vizinhos mais próximos aproximados para reduzir o volume de dados e o poder de processamento exigidos pelo IREOS sem perda significativa na qualidade dos resultados. Avaliamos o ESIREOS teoricamente, estimando sua complexidade assintótica, e via experimentos com conjuntos de dados reais e sintéticos, para atestar sua eficácia e eficiência em comparação a versão original, incluindo conjuntos de dados com grande volume. Os resultados apresentam que o ESIREOS obteve uma melhora significativa na complexidade computacional em comparação à versão original do IREOS, mantendo a qualidade dos resultados. O ESIREOS mostrou-se capaz de avaliar soluções para conjuntos de dados muito grandes, mesmo aqueles para os quais o IREOS não conseguiu avaliar em um tempo viável. Portanto, esta nova versão eficiente e escalável pode ser usada em muitos cenários, principalmente, mas não limitados a, aqueles com dados grandes ou distribuídos.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus SorocabaPrograma de Pós-Graduação em Ciência da Computação - PPGCC-SoUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessMineração de DadosDetecção de AnomaliasComputação Paralela MassivaData MiningOutlier DetectionMassive Parallel ComputingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomaliasESIREOS: Efficient, Scalable, Internal, Relative Evaluation of Outliers Solutionsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis60060018fa9a97-8f52-40c3-9e9f-75eedef14b91reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTHUMBNAILDissertação_ESIREOS___modelo_PPGCCS.pdf.jpgDissertação_ESIREOS___modelo_PPGCCS.pdf.jpgGenerated Thumbnailimage/jpeg4031https://repositorio.ufscar.br/bitstreams/fdb6235d-8d40-4194-806d-b7c26c2aa319/download3783fb96e51106dba098adb12be133fcMD54falseAnonymousREADORIGINALDissertação_ESIREOS___modelo_PPGCCS.pdfDissertação_ESIREOS___modelo_PPGCCS.pdfapplication/pdf917417https://repositorio.ufscar.br/bitstreams/878acefe-e173-484e-9602-3f70856b311e/download85e79dbe621b8022a550e493a9ce20f4MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/be20dd75-4fa4-40cd-88ee-c2a0984b0b4e/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREADTEXTDissertação_ESIREOS___modelo_PPGCCS.pdf.txtDissertação_ESIREOS___modelo_PPGCCS.pdf.txtExtracted texttext/plain83897https://repositorio.ufscar.br/bitstreams/b0fa7f3f-1a35-4b7d-acb8-a7778f83679e/download6ca02f6a624e541dd52c5c24876bd9c6MD53falseAnonymousREAD20.500.14289/182272025-02-05 23:57:00.922http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/18227https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T02:57Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
dc.title.alternative.eng.fl_str_mv ESIREOS: Efficient, Scalable, Internal, Relative Evaluation of Outliers Solutions
title ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
spellingShingle ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
Alves, William Adriano
Mineração de Dados
Detecção de Anomalias
Computação Paralela Massiva
Data Mining
Outlier Detection
Massive Parallel Computing
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
title_full ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
title_fullStr ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
title_full_unstemmed ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
title_sort ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
author Alves, William Adriano
author_facet Alves, William Adriano
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/7758293466527368
dc.contributor.author.fl_str_mv Alves, William Adriano
dc.contributor.advisor1.fl_str_mv Naldi, Murilo Coelho
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0573662728816861
dc.contributor.advisor-co1.fl_str_mv Marques, Henrique Oliveira
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/6792856084528925
dc.contributor.authorID.fl_str_mv 7804af22-fbc7-43e2-bfdb-c085e30e5176
contributor_str_mv Naldi, Murilo Coelho
Marques, Henrique Oliveira
dc.subject.por.fl_str_mv Mineração de Dados
Detecção de Anomalias
Computação Paralela Massiva
topic Mineração de Dados
Detecção de Anomalias
Computação Paralela Massiva
Data Mining
Outlier Detection
Massive Parallel Computing
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Data Mining
Outlier Detection
Massive Parallel Computing
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Anomaly (outlier) detection is one of the main problems in data mining. Since anomalies can translate into important information in numerous fields, several methods were developed to identify them, especially unsupervised methods, which is the focus of this work. To soften the need for studies on assessing and quantifying the quality of the result of these unsupervised methods, the IREOS index was proposed as the first internal evaluation technique for unsupervised anomaly detection methods. IREOS allows one to select the best algorithm and parameters for a given problem using only intrinsic information from the data. However, IREOS demands the training of many highly complex classifiers for each object in the dataset whose outlier detection solutions are being analyzed. This feature limits the application of IREOS to small datasets since the classifiers use all points in the dataset during its training. In the present work, we propose ESIREOS, the first version of IREOS that addresses its performance and processing deficiencies using Massive Parallel Computing techniques that efficiently implement horizontal computational scaling for many machine learning problems. ESIREOS also makes use of approximated Nearest Neighbor Graphs to reduce the volume of data and processing power demanded by IREOS without any significant loss in the quality of the results. We evaluate ESIREOS theoretically, estimating its asymptotic complexity and with experiments over real and synthetic datasets to attest to its effectiveness and performance compared to the original version, including large datasets. The results showed that ESIREOS resulted in a significant improvement in computational complexity when compared to the original IREOS while maintaining quality. ESIREOS showed to be capable of evaluating solutions for very large datasets, even those which IREOS was not capable of evaluating in a feasible time. Therefore, this efficient and scalable new version can be used in many scenarios, mainly, but not limited to, those with large or distributed data.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-07-03T15:16:11Z
dc.date.available.fl_str_mv 2023-07-03T15:16:11Z
dc.date.issued.fl_str_mv 2023-05-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ALVES, William Adriano. ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18227.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/18227
identifier_str_mv ALVES, William Adriano. ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18227.
url https://repositorio.ufscar.br/handle/20.500.14289/18227
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 18fa9a97-8f52-40c3-9e9f-75eedef14b91
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus Sorocaba
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC-So
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus Sorocaba
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/fdb6235d-8d40-4194-806d-b7c26c2aa319/download
https://repositorio.ufscar.br/bitstreams/878acefe-e173-484e-9602-3f70856b311e/download
https://repositorio.ufscar.br/bitstreams/be20dd75-4fa4-40cd-88ee-c2a0984b0b4e/download
https://repositorio.ufscar.br/bitstreams/b0fa7f3f-1a35-4b7d-acb8-a7778f83679e/download
bitstream.checksum.fl_str_mv 3783fb96e51106dba098adb12be133fc
85e79dbe621b8022a550e493a9ce20f4
f337d95da1fce0a22c77480e5e9a7aec
6ca02f6a624e541dd52c5c24876bd9c6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1834469028082483200