Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes

Machado, Emerson Lopes

Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes

Bibliographic Details
Main Author:	Machado, Emerson Lopes
Publication Date:	2007
Format:	Master thesis
Language:	por
Source:	Repositório Institucional da UnB
Download full:	http://repositorio.unb.br/handle/10482/1397
Summary:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2007.

Item metadata

id	UNB_72c200c05682b68c53edb82a22ca93e2
oai_identifier_str	oai:repositorio.unb.br:10482/1397
network_acronym_str	UNB
network_name_str	Repositório Institucional da UnB
repository_id_str
spelling	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classesMineração de dados (Computação)Desbalanceamento de classeSobreposição de classeSMOTECluster-based OversamplingCluster-based SmoteC-clearDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2007.O objetivo geral desta pesquisa é analisar técnicas para aumentar a acurácia de classificadores construídos a partir de bases de dados desbalanceadas. Uma base de dados é desbalanceada quando possui muito mais casos de uma classe do que das outras, portanto possui classes raras. O desbalanceamento também pode ser em uma mesma classe se a distribuição dos valores dos atributos for muito assimétrica, levando à ocorrência de casos raros. Algoritmos classificadores são muito sensíveis a estes tipos de desbalanceamentos e tendem a valorizar as classes (ou casos) predominantes e a ignorar as classes (ou casos) de menor freqüência. Modelos gerados para bases de dados com classes raras apresentam baixa acurácia para estas classes, o que é problemático quando elas são classes de interesse (ou quando uma delas é a classe de interesse). Já os casos raros podem ser ignorados pelos algoritmos classificadores, o que é problemático quando tais casos pertencem à classe (ou às classes) de interesse. Uma nova proposição de algoritmo é o Cluster-based Smote, que se baseia na combinação dos métodos de Cluster-based Oversampling (oversampling por replicação de casos guiada por clusters) e no SMOTE (oversampling por geração de casos sintéticos). O método Cluster-based Oversampling visa melhorar a aprendizagem de pequenos disjuntos, geralmente relacionados a casos raros, mas causa overfitting do modelo ao conjunto de treinamento. O método SMOTE gera novos casos sintéticos ao invés de replicar casos existentes, mas não enfatiza casos raros. A combinação desses algoritmos, chamada de Clusterbased Smote, apresentou resultados melhores do que a aplicação deles em separado em oito das nove bases de dados utilizadas proposta nesta pesquisa. A outra abordagem proposta nesta pesquisa visa a diminuir a sobreposição de classes possivelmente provocada pela aplicação do método SMOTE. Intuitivamente, esta abordagem consiste em guiar a aplicação do SMOTE com a aprendizagem não supervisionada proporcionada pela clusterização. O método implementado sob esta abordagem, denominado de C-clear, resultou em melhora significativa em relação ao SMOTE em três das nove bases testadas e empatou nas demais. Foi também proposta uma nova abordagem para limpeza de dados baseada na aprendizagem não supervisionada, a qual foi incorporada ao C-clear. Esta limpeza somente surtiu melhora em uma base de dados, sendo este baixo desempenho oriundo possivelmente da escolha não adequada de seus parâmetros de limpeza. A aprendizagem destes parâmetros a partir dos dados ficou como trabalho futuro. ___________________________________________________________________________________________ ABSTRACTIt is intended in this work to research methods that improve the accuracy of classifiers applied to data set with class imbalance (high skew in class distribution causing rare classes) and within-class imbalance (high skew in data within-class distribution causing care cases). Standard classifier algorithms are strongly affected by these characteristics and their generated model are biased to the majority classes (or cases), in detriment of classes (or cases) underrepresented. Generally, models generated with imbalanced data set suffer from low accuracy for the minority classes, which is a problem when the target class is one of them. Eventually, rare cases are likely of being ignored by inductors, which is a problem when they belong to the interesting class (or classes). A new method is proposed in this work, Cluster-based Smote, which combines the methods Cluster-based Oversampling (oversampling by replication of positive cases guided by clusters) and SMOTE (Synthetic Minority Oversampling Technique). Cluster-based Oversampling addresses small disjuncts, but overfits the model to the training set. The method SMOTE addresses the overfit problem of random oversampling, but does not treat rare cases. The combination of them proposed in this research, named Cluster-based Smote, presented better results in eight out of nine datasets, compared to the applying of them all alone. Another approach proposed in this research aims at reducing the class overlap problem possibly caused by applying SMOTE. The main idea is to guide the SMOTE process by non-supervised learning (with clustering techniques). The method implemented under this approach, named Cclear, resulted in significant improvement over SMOTE in three out of nine datasets. A cleaning method based in the non-supervised learning was also proposed and has been incorporated in the C-clear method. The cleaning method improved the results in only one dataset, probably because of the not so well values chosen as cleaning parameters. The learning of these parameters from the data is left as a future work.Ladeira, MarceloMachado, Emerson Lopes2009-03-04T12:18:48Z2009-03-04T12:18:48Z2009-03-042007-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMACHADO, Emerson Lopes. Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes. 2007. 63 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2007.http://repositorio.unb.br/handle/10482/1397info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-07-14T18:56:25Zoai:repositorio.unb.br:10482/1397Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-07-14T18:56:25Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes
title	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes
spellingShingle	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes Machado, Emerson Lopes Mineração de dados (Computação) Desbalanceamento de classe Sobreposição de classe SMOTE Cluster-based Oversampling Cluster-based Smote C-clear
title_short	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes
title_full	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes
title_fullStr	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes
title_full_unstemmed	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes
title_sort	Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes
author	Machado, Emerson Lopes
author_facet	Machado, Emerson Lopes
author_role	author
dc.contributor.none.fl_str_mv	Ladeira, Marcelo
dc.contributor.author.fl_str_mv	Machado, Emerson Lopes
dc.subject.por.fl_str_mv	Mineração de dados (Computação) Desbalanceamento de classe Sobreposição de classe SMOTE Cluster-based Oversampling Cluster-based Smote C-clear
topic	Mineração de dados (Computação) Desbalanceamento de classe Sobreposição de classe SMOTE Cluster-based Oversampling Cluster-based Smote C-clear
description	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2007.
publishDate	2007
dc.date.none.fl_str_mv	2007-04 2009-03-04T12:18:48Z 2009-03-04T12:18:48Z 2009-03-04
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	MACHADO, Emerson Lopes. Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes. 2007. 63 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2007. http://repositorio.unb.br/handle/10482/1397
identifier_str_mv	MACHADO, Emerson Lopes. Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes. 2007. 63 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2007.
url	http://repositorio.unb.br/handle/10482/1397
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB
instname_str	Universidade de Brasília (UnB)
instacron_str	UNB
institution	UNB
reponame_str	Repositório Institucional da UnB
collection	Repositório Institucional da UnB
repository.name.fl_str_mv	Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv	repositorio@unb.br
_version_	1839083159377936384

Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes

Similar Items