ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias
| Main Author: | |
|---|---|
| Publication Date: | 2023 |
| Format: | Master thesis |
| Language: | por |
| Source: | Repositório Institucional da UFSCAR |
| Download full: | https://repositorio.ufscar.br/handle/20.500.14289/18227 |
Summary: | Anomaly (outlier) detection is one of the main problems in data mining. Since anomalies can translate into important information in numerous fields, several methods were developed to identify them, especially unsupervised methods, which is the focus of this work. To soften the need for studies on assessing and quantifying the quality of the result of these unsupervised methods, the IREOS index was proposed as the first internal evaluation technique for unsupervised anomaly detection methods. IREOS allows one to select the best algorithm and parameters for a given problem using only intrinsic information from the data. However, IREOS demands the training of many highly complex classifiers for each object in the dataset whose outlier detection solutions are being analyzed. This feature limits the application of IREOS to small datasets since the classifiers use all points in the dataset during its training. In the present work, we propose ESIREOS, the first version of IREOS that addresses its performance and processing deficiencies using Massive Parallel Computing techniques that efficiently implement horizontal computational scaling for many machine learning problems. ESIREOS also makes use of approximated Nearest Neighbor Graphs to reduce the volume of data and processing power demanded by IREOS without any significant loss in the quality of the results. We evaluate ESIREOS theoretically, estimating its asymptotic complexity and with experiments over real and synthetic datasets to attest to its effectiveness and performance compared to the original version, including large datasets. The results showed that ESIREOS resulted in a significant improvement in computational complexity when compared to the original IREOS while maintaining quality. ESIREOS showed to be capable of evaluating solutions for very large datasets, even those which IREOS was not capable of evaluating in a feasible time. Therefore, this efficient and scalable new version can be used in many scenarios, mainly, but not limited to, those with large or distributed data. |
| id |
SCAR_9d4f29ca2757d53b9f0b2dcc129bf4c8 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/18227 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
4322 |
| spelling |
Alves, William AdrianoNaldi, Murilo Coelhohttp://lattes.cnpq.br/0573662728816861Marques, Henrique Oliveirahttp://lattes.cnpq.br/6792856084528925http://lattes.cnpq.br/77582934665273687804af22-fbc7-43e2-bfdb-c085e30e51762023-07-03T15:16:11Z2023-07-03T15:16:11Z2023-05-25ALVES, William Adriano. ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18227.https://repositorio.ufscar.br/handle/20.500.14289/18227Anomaly (outlier) detection is one of the main problems in data mining. Since anomalies can translate into important information in numerous fields, several methods were developed to identify them, especially unsupervised methods, which is the focus of this work. To soften the need for studies on assessing and quantifying the quality of the result of these unsupervised methods, the IREOS index was proposed as the first internal evaluation technique for unsupervised anomaly detection methods. IREOS allows one to select the best algorithm and parameters for a given problem using only intrinsic information from the data. However, IREOS demands the training of many highly complex classifiers for each object in the dataset whose outlier detection solutions are being analyzed. This feature limits the application of IREOS to small datasets since the classifiers use all points in the dataset during its training. In the present work, we propose ESIREOS, the first version of IREOS that addresses its performance and processing deficiencies using Massive Parallel Computing techniques that efficiently implement horizontal computational scaling for many machine learning problems. ESIREOS also makes use of approximated Nearest Neighbor Graphs to reduce the volume of data and processing power demanded by IREOS without any significant loss in the quality of the results. We evaluate ESIREOS theoretically, estimating its asymptotic complexity and with experiments over real and synthetic datasets to attest to its effectiveness and performance compared to the original version, including large datasets. The results showed that ESIREOS resulted in a significant improvement in computational complexity when compared to the original IREOS while maintaining quality. ESIREOS showed to be capable of evaluating solutions for very large datasets, even those which IREOS was not capable of evaluating in a feasible time. Therefore, this efficient and scalable new version can be used in many scenarios, mainly, but not limited to, those with large or distributed data.A detecção de anomalias (outliers) é um dos principais problemas em mineração de dados, uma vez que anomalias podem representar informações importantes em numerosas áreas. Vários métodos foram desenvolvidos para identificá-las, especialmente métodos não supervisionados, foco deste trabalho. Endereçando a necessidade de estudos para avaliar e quantificar a qualidade do resultado desses métodos não supervisionados, o índice IREOS foi proposto como a primeira técnica de avaliação interna para métodos não supervisionados de detecção de anomalias. O IREOS permite selecionar o melhor algoritmo e parâmetros para um dado problema usando apenas informações intrínsecas dos dados. No entanto, o IREOS exige o treinamento de muitos classificadores com alta complexidade para cada objeto no conjunto de dados cujas soluções de detecção de anomalias estão sendo analisadas. Essa característica limita a aplicação do IREOS a conjuntos de dados pequenos, já que os classificadores necessários utilizam todos os objetos no conjunto de dados durante o treinamento. No presente trabalho, propomos o ESIREOS, a primeira versão do IREOS que aborda suas deficiências de desempenho e processamento usando técnicas de computação paralela massiva, eficientemente utilizadas para o escalonamento computacional horizontal de muitos problemas de aprendizado de máquina. O ESIREOS também usa grafos de vizinhos mais próximos aproximados para reduzir o volume de dados e o poder de processamento exigidos pelo IREOS sem perda significativa na qualidade dos resultados. Avaliamos o ESIREOS teoricamente, estimando sua complexidade assintótica, e via experimentos com conjuntos de dados reais e sintéticos, para atestar sua eficácia e eficiência em comparação a versão original, incluindo conjuntos de dados com grande volume. Os resultados apresentam que o ESIREOS obteve uma melhora significativa na complexidade computacional em comparação à versão original do IREOS, mantendo a qualidade dos resultados. O ESIREOS mostrou-se capaz de avaliar soluções para conjuntos de dados muito grandes, mesmo aqueles para os quais o IREOS não conseguiu avaliar em um tempo viável. Portanto, esta nova versão eficiente e escalável pode ser usada em muitos cenários, principalmente, mas não limitados a, aqueles com dados grandes ou distribuídos.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus SorocabaPrograma de Pós-Graduação em Ciência da Computação - PPGCC-SoUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessMineração de DadosDetecção de AnomaliasComputação Paralela MassivaData MiningOutlier DetectionMassive Parallel ComputingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomaliasESIREOS: Efficient, Scalable, Internal, Relative Evaluation of Outliers Solutionsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis60060018fa9a97-8f52-40c3-9e9f-75eedef14b91reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTHUMBNAILDissertação_ESIREOS___modelo_PPGCCS.pdf.jpgDissertação_ESIREOS___modelo_PPGCCS.pdf.jpgGenerated Thumbnailimage/jpeg4031https://repositorio.ufscar.br/bitstreams/fdb6235d-8d40-4194-806d-b7c26c2aa319/download3783fb96e51106dba098adb12be133fcMD54falseAnonymousREADORIGINALDissertação_ESIREOS___modelo_PPGCCS.pdfDissertação_ESIREOS___modelo_PPGCCS.pdfapplication/pdf917417https://repositorio.ufscar.br/bitstreams/878acefe-e173-484e-9602-3f70856b311e/download85e79dbe621b8022a550e493a9ce20f4MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/be20dd75-4fa4-40cd-88ee-c2a0984b0b4e/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREADTEXTDissertação_ESIREOS___modelo_PPGCCS.pdf.txtDissertação_ESIREOS___modelo_PPGCCS.pdf.txtExtracted texttext/plain83897https://repositorio.ufscar.br/bitstreams/b0fa7f3f-1a35-4b7d-acb8-a7778f83679e/download6ca02f6a624e541dd52c5c24876bd9c6MD53falseAnonymousREAD20.500.14289/182272025-02-05 23:57:00.922http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/18227https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T02:57Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias |
| dc.title.alternative.eng.fl_str_mv |
ESIREOS: Efficient, Scalable, Internal, Relative Evaluation of Outliers Solutions |
| title |
ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias |
| spellingShingle |
ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias Alves, William Adriano Mineração de Dados Detecção de Anomalias Computação Paralela Massiva Data Mining Outlier Detection Massive Parallel Computing CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias |
| title_full |
ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias |
| title_fullStr |
ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias |
| title_full_unstemmed |
ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias |
| title_sort |
ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias |
| author |
Alves, William Adriano |
| author_facet |
Alves, William Adriano |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/7758293466527368 |
| dc.contributor.author.fl_str_mv |
Alves, William Adriano |
| dc.contributor.advisor1.fl_str_mv |
Naldi, Murilo Coelho |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/0573662728816861 |
| dc.contributor.advisor-co1.fl_str_mv |
Marques, Henrique Oliveira |
| dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/6792856084528925 |
| dc.contributor.authorID.fl_str_mv |
7804af22-fbc7-43e2-bfdb-c085e30e5176 |
| contributor_str_mv |
Naldi, Murilo Coelho Marques, Henrique Oliveira |
| dc.subject.por.fl_str_mv |
Mineração de Dados Detecção de Anomalias Computação Paralela Massiva |
| topic |
Mineração de Dados Detecção de Anomalias Computação Paralela Massiva Data Mining Outlier Detection Massive Parallel Computing CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Data Mining Outlier Detection Massive Parallel Computing |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Anomaly (outlier) detection is one of the main problems in data mining. Since anomalies can translate into important information in numerous fields, several methods were developed to identify them, especially unsupervised methods, which is the focus of this work. To soften the need for studies on assessing and quantifying the quality of the result of these unsupervised methods, the IREOS index was proposed as the first internal evaluation technique for unsupervised anomaly detection methods. IREOS allows one to select the best algorithm and parameters for a given problem using only intrinsic information from the data. However, IREOS demands the training of many highly complex classifiers for each object in the dataset whose outlier detection solutions are being analyzed. This feature limits the application of IREOS to small datasets since the classifiers use all points in the dataset during its training. In the present work, we propose ESIREOS, the first version of IREOS that addresses its performance and processing deficiencies using Massive Parallel Computing techniques that efficiently implement horizontal computational scaling for many machine learning problems. ESIREOS also makes use of approximated Nearest Neighbor Graphs to reduce the volume of data and processing power demanded by IREOS without any significant loss in the quality of the results. We evaluate ESIREOS theoretically, estimating its asymptotic complexity and with experiments over real and synthetic datasets to attest to its effectiveness and performance compared to the original version, including large datasets. The results showed that ESIREOS resulted in a significant improvement in computational complexity when compared to the original IREOS while maintaining quality. ESIREOS showed to be capable of evaluating solutions for very large datasets, even those which IREOS was not capable of evaluating in a feasible time. Therefore, this efficient and scalable new version can be used in many scenarios, mainly, but not limited to, those with large or distributed data. |
| publishDate |
2023 |
| dc.date.accessioned.fl_str_mv |
2023-07-03T15:16:11Z |
| dc.date.available.fl_str_mv |
2023-07-03T15:16:11Z |
| dc.date.issued.fl_str_mv |
2023-05-25 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
ALVES, William Adriano. ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18227. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/18227 |
| identifier_str_mv |
ALVES, William Adriano. ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18227. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/18227 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.confidence.fl_str_mv |
600 600 |
| dc.relation.authority.fl_str_mv |
18fa9a97-8f52-40c3-9e9f-75eedef14b91 |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus Sorocaba |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC-So |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus Sorocaba |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/fdb6235d-8d40-4194-806d-b7c26c2aa319/download https://repositorio.ufscar.br/bitstreams/878acefe-e173-484e-9602-3f70856b311e/download https://repositorio.ufscar.br/bitstreams/be20dd75-4fa4-40cd-88ee-c2a0984b0b4e/download https://repositorio.ufscar.br/bitstreams/b0fa7f3f-1a35-4b7d-acb8-a7778f83679e/download |
| bitstream.checksum.fl_str_mv |
3783fb96e51106dba098adb12be133fc 85e79dbe621b8022a550e493a9ce20f4 f337d95da1fce0a22c77480e5e9a7aec 6ca02f6a624e541dd52c5c24876bd9c6 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1834469028082483200 |