Exploring problems of overlap and dataset shift in imbalanced data

Detalhes bibliográficos
Autor(a) principal: Apóstolo, João Diogo de Sousa Jardim e
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: https://hdl.handle.net/10316/102147
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_32d040545233bcf384d8dbbe971fb07d
oai_identifier_str oai:estudogeral.uc.pt:10316/102147
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Exploring problems of overlap and dataset shift in imbalanced dataExplorando problemas de overlap e dataset shift em dados pouco balanceadosDataset ShiftOverlapCross ValidationDados não balanceadosMedidas de ComplexidadeDataset ShiftOverlapCross ValidationImbalanceComplexity MeasuresDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaEmbora se saiba que existência de dados não balanceados não é muito prejudicial por si só, quando combinado com outros problemas como dataset shift e/ou overlap, o seu impacto na degradação da qualidade dos dados aumenta, tornando-se um problema real. Apesar disso, existe uma falta de estudos que analisem estes problemas simultaneamente.O objetivo deste trabalho é estudar tanto o overlap como o dataset shift em contextos em que os dados são pouco balanceados, para perceber em mais detalhe os seus efeitos combinados. Para estudar o dataset shift, foram realizadas experiências usando quatro algoritmos de cross validation, que introduzem diferentes quantidades de dataset shift nos dados, visando entender o seu impacto no desempenho de vários algoritmos classificação. Além disso, foram também realizadas experiências usando várias técnicas de oversampling para medir os efeitos combinados do dataset shift e dados pouco balanceados na degradação do desempenho desses algoritmos de classificação. Geralmente, os resultados confirmaram que os efeitos conjuntos dos dois problemas são muito prejudiciais ao desempenho dos classificadores, sendo que o dataset shift ocupa o papel principal nessa equação, porém o uso de algoritmos de oversampling pode melhorar o desempenho em alguns cenários. Este estudo também contestou a literatura atual sobre a eficácia de algoritmos de cross validation na redução do dataset shift.Para estudar o overlap, foi criada uma biblioteca em python, pycol, que agrega a maioria das medidas de complexidade existentes no estado da arte usadas para medir o overlap, visando facilitar a experimentação com essas medidas. Utilizando a biblioteca foi realizado um estudo de modo a validar uma taxonomia proposta para estas medidas. Além disso, a eficácia do uso de vários algoritmos de pré-processamento na redução da overlap foi testada em datasets não balanceados. Os resultados revelaram nova informação sobre os algoritmos de pré-processamento testados e demonstraram a sua utilidade na redução de múltiplas dimensões de overlap. Os resultados também confirmaram a validade das famílias de overlap propostas na taxonomia supracitada, mas também indicam que cada família não é independente das demais.While it is known that imbalance on its own is not too harmful, when combined with other issues such as dataset shift and/or overlap, its impact on the degradation of the quality of data increases, becoming a real problem. Despite this, there is a lack of research works studying these issues simultaneously.The aim of this work is to study both overlap and dataset shift in contexts of where the data is imbalanced, to understand their combined effects.To study dataset shift, experiments were made using four cross validation algorithms, that induce different amounts of shift in the data, with the goal of understanding their impact on the performance of several machine learning algorithms. Furthermore, experiments were also done using multiple oversampling techniques to measure how much the combined effects of dataset shift and imbalance degrade the performance of these algorithms. Overall, the results confirmed that the joint effects of imbalance and dataset shift are very detrimental to the classifier's performance, with dataset shift occupying the main role in this equation, but that the use of oversampling algorithms could improve performance in some scenarios. This study also contested the current literature on the efficacy of cross validation algorithms in reducing dataset shift.To study overlap, a new python package, pycol, was created, which aggregates most state-of-the-art complexity measures used to calculate overlap, with the goal of making it easier to experiment with these measures. Using this package a study was conducted validating a taxonomy proposed for these measures. Furthermore, the efficacy of multiple preprocessing algorithms in reducing overlap was tested in imbalanced datasets. The results revealed new information about the preprocessing algorithms and showed their usefulness in reducing multiple dimensions of overlap. The results also confirmed the validity of the families of overlap proposed in the aforementioned taxonomy, but they also indicate that each family is not independent of the others, meaning that there is some overlap degree between families.2022-07-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://hdl.handle.net/10316/102147https://hdl.handle.net/10316/102147TID:203062329engApóstolo, João Diogo de Sousa Jardim einfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2022-09-27T20:41:27Zoai:estudogeral.uc.pt:10316/102147Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T05:51:48.764907Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Exploring problems of overlap and dataset shift in imbalanced data
Explorando problemas de overlap e dataset shift em dados pouco balanceados
title Exploring problems of overlap and dataset shift in imbalanced data
spellingShingle Exploring problems of overlap and dataset shift in imbalanced data
Apóstolo, João Diogo de Sousa Jardim e
Dataset Shift
Overlap
Cross Validation
Dados não balanceados
Medidas de Complexidade
Dataset Shift
Overlap
Cross Validation
Imbalance
Complexity Measures
title_short Exploring problems of overlap and dataset shift in imbalanced data
title_full Exploring problems of overlap and dataset shift in imbalanced data
title_fullStr Exploring problems of overlap and dataset shift in imbalanced data
title_full_unstemmed Exploring problems of overlap and dataset shift in imbalanced data
title_sort Exploring problems of overlap and dataset shift in imbalanced data
author Apóstolo, João Diogo de Sousa Jardim e
author_facet Apóstolo, João Diogo de Sousa Jardim e
author_role author
dc.contributor.author.fl_str_mv Apóstolo, João Diogo de Sousa Jardim e
dc.subject.por.fl_str_mv Dataset Shift
Overlap
Cross Validation
Dados não balanceados
Medidas de Complexidade
Dataset Shift
Overlap
Cross Validation
Imbalance
Complexity Measures
topic Dataset Shift
Overlap
Cross Validation
Dados não balanceados
Medidas de Complexidade
Dataset Shift
Overlap
Cross Validation
Imbalance
Complexity Measures
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2022
dc.date.none.fl_str_mv 2022-07-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/102147
https://hdl.handle.net/10316/102147
TID:203062329
url https://hdl.handle.net/10316/102147
identifier_str_mv TID:203062329
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602497024884736