Modelo de classificação para dados desbalanceados: método SMOTE e variantes

Bibliographic Details
Main Author: Nora, Andrielle Couto
Publication Date: 2024
Format: Bachelor thesis
Language: por
Source: Repositório Institucional da UFSCAR
Download full: https://repositorio.ufscar.br/handle/20.500.14289/19545
Summary: Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance.
id SCAR_c666e3fd8785ae88d68f2ccf7dfd9ec8
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/19545
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Nora, Andrielle CoutoDiniz, Carlos Alberto Ribeirohttp://lattes.cnpq.br/3277371897783194http://lattes.cnpq.br/7319129806979557https://orcid.org/0000-0003-3464-11082024-02-28T21:45:16Z2024-02-28T21:45:16Z2024-01-29NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19545.https://repositorio.ufscar.br/handle/20.500.14289/19545Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance.Frequentemente, em modelos de classificação, nos deparamos com bancos de dados que possuem classes muito desbalanceadas, como por exemplo: dados de diagnóstico de doenças raras, defeitos de fabricação, transações fraudulentas, etc. Treinar um modelo em um conjunto de dados com poucas observações de uma determinada classe resulta em um desempenho preditivo ruim do mesmo, especialmente para as observações pertencentes à classe minoritária. Neste Trabalho de Conclusão de Curso (TCC), apresentamos e comparamos diferentes variantes do método SMOTE (Synthetic Minority Over-sampling TEchnique) de sobreamostragem de dados desbalanceados utilizados em modelos de classificação, especificamente, a Regressão Logística, a fim de demonstrar como essas técnicas podem melhorar a capacidade de identificar e prever observações da classe minoritária em cenários realistas e desbalanceados, além de determinar qual combinação entre a técnica de amostragem e o modelo de classificação de Regressão Logística leva a um melhor desempenho.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEstatística - EsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessDados desbalanceadosModelo de classificaçãoRegressão logísticaSobreamostragemMétodo SMOTECIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOModelo de classificação para dados desbalanceados: método SMOTE e variantesClassification model for unbalanced data: SMOTE method and variantsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdfMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdfRelatório de pesquisaapplication/pdf1075521https://repositorio.ufscar.br/bitstreams/97881d7f-b49b-47b8-846c-ddc960456b7b/download7de29ba12a8d58fc4d9e5acd11587fccMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/6bbaa7e0-c609-48b6-8e56-af4c5a9ac1a5/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREADTEXTMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdf.txtMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdf.txtExtracted texttext/plain151356https://repositorio.ufscar.br/bitstreams/16928131-d636-4b63-824d-43053885162f/download792a6a7001ae4c5533be31911d99c6d7MD53falseAnonymousREADTHUMBNAILMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdf.jpgMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdf.jpgIM Thumbnailimage/jpeg6101https://repositorio.ufscar.br/bitstreams/50b4b252-5369-42cc-9e1e-3d336c10f9c9/download70ea8c5ed751662c89ee9be4896f84c5MD54falseAnonymousREAD20.500.14289/195452025-02-06 01:43:49.564http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/19545https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T04:43:49Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Modelo de classificação para dados desbalanceados: método SMOTE e variantes
dc.title.alternative.eng.fl_str_mv Classification model for unbalanced data: SMOTE method and variants
title Modelo de classificação para dados desbalanceados: método SMOTE e variantes
spellingShingle Modelo de classificação para dados desbalanceados: método SMOTE e variantes
Nora, Andrielle Couto
Dados desbalanceados
Modelo de classificação
Regressão logística
Sobreamostragem
Método SMOTE
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
title_short Modelo de classificação para dados desbalanceados: método SMOTE e variantes
title_full Modelo de classificação para dados desbalanceados: método SMOTE e variantes
title_fullStr Modelo de classificação para dados desbalanceados: método SMOTE e variantes
title_full_unstemmed Modelo de classificação para dados desbalanceados: método SMOTE e variantes
title_sort Modelo de classificação para dados desbalanceados: método SMOTE e variantes
author Nora, Andrielle Couto
author_facet Nora, Andrielle Couto
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/7319129806979557
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0003-3464-1108
dc.contributor.author.fl_str_mv Nora, Andrielle Couto
dc.contributor.advisor1.fl_str_mv Diniz, Carlos Alberto Ribeiro
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3277371897783194
contributor_str_mv Diniz, Carlos Alberto Ribeiro
dc.subject.por.fl_str_mv Dados desbalanceados
Modelo de classificação
Regressão logística
Sobreamostragem
Método SMOTE
topic Dados desbalanceados
Modelo de classificação
Regressão logística
Sobreamostragem
Método SMOTE
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
description Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-02-28T21:45:16Z
dc.date.available.fl_str_mv 2024-02-28T21:45:16Z
dc.date.issued.fl_str_mv 2024-01-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19545.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/19545
identifier_str_mv NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19545.
url https://repositorio.ufscar.br/handle/20.500.14289/19545
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/97881d7f-b49b-47b8-846c-ddc960456b7b/download
https://repositorio.ufscar.br/bitstreams/6bbaa7e0-c609-48b6-8e56-af4c5a9ac1a5/download
https://repositorio.ufscar.br/bitstreams/16928131-d636-4b63-824d-43053885162f/download
https://repositorio.ufscar.br/bitstreams/50b4b252-5369-42cc-9e1e-3d336c10f9c9/download
bitstream.checksum.fl_str_mv 7de29ba12a8d58fc4d9e5acd11587fcc
f337d95da1fce0a22c77480e5e9a7aec
792a6a7001ae4c5533be31911d99c6d7
70ea8c5ed751662c89ee9be4896f84c5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1834469002339942400