Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2025 |
| Tipo de documento: | Dissertação |
| Idioma: | por |
| Título da fonte: | Repositório Institucional da UFPE |
| Texto Completo: | https://repositorio.ufpe.br/handle/123456789/67847 |
Resumo: | A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes. |
| id |
UFPE_d5c2a9d42e0ef30d5029f5da91c8ef14 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufpe.br:123456789/67847 |
| network_acronym_str |
UFPE |
| network_name_str |
Repositório Institucional da UFPE |
| repository_id_str |
2221 |
| spelling |
DANTAS, Camila de Sousahttp://lattes.cnpq.br/5512384796762058http://lattes.cnpq.br/5655706091153128http://lattes.cnpq.br/0524469251291943https://orcid.org/0000-0003-0610-6925https://orcid.org/0000-0001-9009-7659DANTAS, Jamilson RamalhoSILVA JUNIOR, João Ferreira da2026-01-23T15:04:29Z2026-01-23T15:04:29Z2025-08-28DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025.https://repositorio.ufpe.br/handle/123456789/67847A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes.The analysis of non-parametric, imbalanced, and high-dimensional data remains a recurring challenge in numerous Machine Learning (ML) applications, where traditional feature selection (FS) methods often fail dubito restrictive assumptions (e.g., data normality) or high computa-tional costs. This work proposes a comprehensive FS strategy for ML-based systems through a non-parametric, robust, and scalable approach. The model is structured in three stages: filter-ing, clustering, and ranking, employing adapted metrics such as Shannon entropy, Spearman correlation, modified Bhattacharyya distance, and adjusted mutual information (AMI), which eliminate rigid assumptions about data distribution. Implemented in Python, the algorithm was experimentally validated across multiple scenarios, including cybersecurity case studies with real-world network traffic and cyberattack datasets, using classifiers such as Random Forest, 10-fold cross-validation, and non-parametric statistical tests (Friedman and Nemenyi). Results showed an average dimensionality reduction of 81.5% without compromising accuracy, achieving statistical superiority (p-value < 0.05) in metrics such as accuracy, Fl-score, and AUC-ROC compared to traditional methods, while reducing processing time by up to 3.8x. The stability of the selections exceeded 90% agreement, demonstrating the reliability of the model. The proposed strategy not only enhances computational efficiency and predictive per-formance in complex problems but also improves explainability and adaptability to domains with heterogeneous data, providing an effective alternative for feature selection in scenarios dominated by non-parametric data.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessSeleção de atributosTécnicas não paramétricasRedução de dimensionalidadeUma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquinainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Camila de Sousa Dantas.pdfDISSERTAÇÃO Camila de Sousa Dantas.pdfapplication/pdf7354911https://repositorio.ufpe.br/bitstream/123456789/67847/1/DISSERTA%c3%87%c3%83O%20Camila%20de%20Sousa%20Dantas.pdf9ce3cff15bc1caaa12b83289f2984f0bMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82362https://repositorio.ufpe.br/bitstream/123456789/67847/2/license.txt5e89a1613ddc8510c6576f4b23a78973MD52TEXTDISSERTAÇÃO Camila de Sousa Dantas.pdf.txtDISSERTAÇÃO Camila de Sousa Dantas.pdf.txtExtracted texttext/plain1640https://repositorio.ufpe.br/bitstream/123456789/67847/3/DISSERTA%c3%87%c3%83O%20Camila%20de%20Sousa%20Dantas.pdf.txtadb2c686afbc27485d40152c7723160bMD53THUMBNAILDISSERTAÇÃO Camila de Sousa Dantas.pdf.jpgDISSERTAÇÃO Camila de Sousa Dantas.pdf.jpgGenerated Thumbnailimage/jpeg1213https://repositorio.ufpe.br/bitstream/123456789/67847/4/DISSERTA%c3%87%c3%83O%20Camila%20de%20Sousa%20Dantas.pdf.jpg6c9ac8e599409850aa5ba7ab85273a13MD54123456789/678472026-01-25 16:48:53.699oai:repositorio.ufpe.br:123456789/67847VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2l6YcOnw6NvIGRlIERvY3VtZW50b3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKCkRlY2xhcm8gZXN0YXIgY2llbnRlIGRlIHF1ZSBlc3RlIFRlcm1vIGRlIERlcMOzc2l0byBMZWdhbCBlIEF1dG9yaXphw6fDo28gdGVtIG8gb2JqZXRpdm8gZGUgZGl2dWxnYcOnw6NvIGRvcyBkb2N1bWVudG9zIGRlcG9zaXRhZG9zIG5vIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgZSBkZWNsYXJvIHF1ZToKCkkgLSBvcyBkYWRvcyBwcmVlbmNoaWRvcyBubyBmb3JtdWzDoXJpbyBkZSBkZXDDs3NpdG8gc8OjbyB2ZXJkYWRlaXJvcyBlIGF1dMOqbnRpY29zOwoKSUkgLSAgbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIHJlc3BvbnNhYmlsaWRhZGUgZGUgc3VhIGF1dG9yaWE7CgpJSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwoKSVYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIG9icmEgY29sZXRpdmEgKG1haXMgZGUgdW0gYXV0b3IpOiB0b2RvcyBvcyBhdXRvcmVzIGVzdMOjbyBjaWVudGVzIGRvIGRlcMOzc2l0byBlIGRlIGFjb3JkbyBjb20gZXN0ZSB0ZXJtbzsKClYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIFRyYWJhbGhvIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28sIERpc3NlcnRhw6fDo28gb3UgVGVzZTogbyBhcnF1aXZvIGRlcG9zaXRhZG8gY29ycmVzcG9uZGUgw6AgdmVyc8OjbyBmaW5hbCBkbyB0cmFiYWxobzsKClZJIC0gcXVhbmRvIHRyYXRhci1zZSBkZSBUcmFiYWxobyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvLCBEaXNzZXJ0YcOnw6NvIG91IFRlc2U6IGVzdG91IGNpZW50ZSBkZSBxdWUgYSBhbHRlcmHDp8OjbyBkYSBtb2RhbGlkYWRlIGRlIGFjZXNzbyBhbyBkb2N1bWVudG8gYXDDs3MgbyBkZXDDs3NpdG8gZSBhbnRlcyBkZSBmaW5kYXIgbyBwZXLDrW9kbyBkZSBlbWJhcmdvLCBxdWFuZG8gZm9yIGVzY29saGlkbyBhY2Vzc28gcmVzdHJpdG8sIHNlcsOhIHBlcm1pdGlkYSBtZWRpYW50ZSBzb2xpY2l0YcOnw6NvIGRvIChhKSBhdXRvciAoYSkgYW8gU2lzdGVtYSBJbnRlZ3JhZG8gZGUgQmlibGlvdGVjYXMgZGEgVUZQRSAoU0lCL1VGUEUpLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gQWJlcnRvOgoKTmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRlIGF1dG9yIHF1ZSByZWNhZW0gc29icmUgZXN0ZSBkb2N1bWVudG8sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuNjEwLCBkZSAxOSBkZSBmZXZlcmVpcm8gZGUgMTk5OCwgYXJ0LiAyOSwgaW5jaXNvIElJSSwgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIGEgZGlzcG9uaWJpbGl6YXIgZ3JhdHVpdGFtZW50ZSwgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkIChhcXVpc2nDp8OjbykgYXRyYXbDqXMgZG8gc2l0ZSBkbyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIG5vIGVuZGVyZcOnbyBodHRwOi8vd3d3LnJlcG9zaXRvcmlvLnVmcGUuYnIsIGEgcGFydGlyIGRhIGRhdGEgZGUgZGVww7NzaXRvLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gUmVzdHJpdG86CgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIGRvY3VtZW50bywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS42MTAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbyBjb25kaXplbnRlIGFvIHRpcG8gZGUgZG9jdW1lbnRvLCBjb25mb3JtZSBpbmRpY2FkbyBubyBjYW1wbyBEYXRhIGRlIEVtYmFyZ28uCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212026-01-25T19:48:53Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
| dc.title.pt_BR.fl_str_mv |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| spellingShingle |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina DANTAS, Camila de Sousa Seleção de atributos Técnicas não paramétricas Redução de dimensionalidade |
| title_short |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title_full |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title_fullStr |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title_full_unstemmed |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title_sort |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| author |
DANTAS, Camila de Sousa |
| author_facet |
DANTAS, Camila de Sousa |
| author_role |
author |
| dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/5512384796762058 |
| dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/5655706091153128 |
| dc.contributor.advisor-coLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/0524469251291943 |
| dc.contributor.authorORCID.pt_BR.fl_str_mv |
https://orcid.org/0000-0003-0610-6925 |
| dc.contributor.advisorORCID.pt_BR.fl_str_mv |
https://orcid.org/0000-0001-9009-7659 |
| dc.contributor.author.fl_str_mv |
DANTAS, Camila de Sousa |
| dc.contributor.advisor1.fl_str_mv |
DANTAS, Jamilson Ramalho |
| dc.contributor.advisor-co1.fl_str_mv |
SILVA JUNIOR, João Ferreira da |
| contributor_str_mv |
DANTAS, Jamilson Ramalho SILVA JUNIOR, João Ferreira da |
| dc.subject.por.fl_str_mv |
Seleção de atributos Técnicas não paramétricas Redução de dimensionalidade |
| topic |
Seleção de atributos Técnicas não paramétricas Redução de dimensionalidade |
| description |
A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes. |
| publishDate |
2025 |
| dc.date.issued.fl_str_mv |
2025-08-28 |
| dc.date.accessioned.fl_str_mv |
2026-01-23T15:04:29Z |
| dc.date.available.fl_str_mv |
2026-01-23T15:04:29Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/67847 |
| identifier_str_mv |
DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025. |
| url |
https://repositorio.ufpe.br/handle/123456789/67847 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
| dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
| dc.publisher.initials.fl_str_mv |
UFPE |
| dc.publisher.country.fl_str_mv |
Brasil |
| publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
| instname_str |
Universidade Federal de Pernambuco (UFPE) |
| instacron_str |
UFPE |
| institution |
UFPE |
| reponame_str |
Repositório Institucional da UFPE |
| collection |
Repositório Institucional da UFPE |
| bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/67847/1/DISSERTA%c3%87%c3%83O%20Camila%20de%20Sousa%20Dantas.pdf https://repositorio.ufpe.br/bitstream/123456789/67847/2/license.txt https://repositorio.ufpe.br/bitstream/123456789/67847/3/DISSERTA%c3%87%c3%83O%20Camila%20de%20Sousa%20Dantas.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/67847/4/DISSERTA%c3%87%c3%83O%20Camila%20de%20Sousa%20Dantas.pdf.jpg |
| bitstream.checksum.fl_str_mv |
9ce3cff15bc1caaa12b83289f2984f0b 5e89a1613ddc8510c6576f4b23a78973 adb2c686afbc27485d40152c7723160b 6c9ac8e599409850aa5ba7ab85273a13 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
| repository.mail.fl_str_mv |
attena@ufpe.br |
| _version_ |
1862741203388203008 |