Exportação concluída — 

Research Problems in Data Quality: Addressing Imbalanced and Missing Data

Detalhes bibliográficos
Autor(a) principal: Santos, Miriam Raquel Seoane Pereira Seguro
Data de Publicação: 2022
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: https://hdl.handle.net/10316/114360
Resumo: Tese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_5eb9dfaed681a7abbdded690ffc81ea0
oai_identifier_str oai:estudogeral.uc.pt:10316/114360
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Research Problems in Data Quality: Addressing Imbalanced and Missing DataProblemas de Investigação na Qualidade de Dados: Tratamento de Dados Desequilibrados e IncompletosQualidade de DadosDados ImperfeitosDados InteligentesDados DesequilibradosDados IncompletosData QualityImperfect DataSmart DataImbalanced DataMissing DataCiências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informáticaTese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaNowadays, data is deeply entangled in nearly all aspects of our daily lives, from social, business, transportation, energy, and even medical applications. Data is among us, it's continuously growing, and its potential is immensely powerful. Nevertheless, its only value relies on our ability to understand it and transform it into meaningful insights. This task currently falls upon the shoulders of machine learning algorithms, that due to their ability to establish connections, patterns, and trends we humans cannot see, have become the cornerstone in analysing, interpreting, and extracting knowledge from data.Traditional machine learning algorithms expect their input data to be well-behaved regarding several factors, such as balanced class distributions, well-represented concepts and decision boundaries, an adequate training set size, consistent and correctly labelled instances, and a complete set of observed values in all features, among others. However, when applied "in the wild", machine learning algorithms are inevitably faced with data imperfection, as many of these assumptions are broken, giving rise to several data problems such as imbalanced data, small disjuncts, class overlap, lack of data, noisy data, dataset shift, and missing data. These imperfections may arise either due to errors in the data acquisition, transmission, and collection processes, or due to the intrinsic nature of the domains, and they are responsible for the degradation of classification performance, and the generation of biased predictions.What ultimately determines the success of machine learning applications is therefore their ability to transform imperfect data into smart data, i.e., data of sufficient quality to allow classifiers to draw accurate and reliable inferences on the domain.In order to move from imperfect to smart data, it is critical to develop a thorough data understanding, which comprehends a well-grounded perception of a multitude of aspects regarding the domain and the data at hand. This involves a strong understanding of the bias generated by each data imperfection and how it aligns with the learning bias of classification or preprocessing algorithms, how data imperfections relate to other characteristics of the domains, how they exacerbate each other when appearing in combination, and why certain circumstances are especially harmful to classification tasks. Following this line of thought, this thesis dedicates time and effort to the characterisation and understanding of data imperfections. We focus particularly on the problems of imbalanced data and missing data, which currently constitute two major lines of research, and further discuss the issues of small disjuncts and class overlap within the scope of imbalanced data. Accordingly, our main goal is to transfer some thoughts, discuss observations, and produce perceptive insights on working with complex scenarios where these data imperfections occur. This comprises the characterisation of the data domains and the bias they may entail; the identification, characterisation, and quantification of data imperfections in real-world domains; the identification of proper conditions for the efficient use of classifiers and preprocessing techniques; and the analysis of the bias associated with certain experimental setup hazards - all of which fall onto our notion of data understanding.Nos dias que correm, os dados encontram-se profundamente incorporados em praticamente todos os aspetos da nossa vida quotidiana, desde aplicações sociais, comerciais, de transporte, energia e até médicas. Os dados tornaram-se parte do tecido das nossas vidas, estão a crescer continuamente e têm um potencial transformador enorme. No entanto, o seu valor está irrefutavelmente dependente da nossa capacidade de os interpretar e transformar em informação útil. Atualmente, essa tarefa recai sobre os sistemas de aprendizagem automática que, devido à sua capacidade de estabelecer conexões e identificar padrões e tendências que nós, enquanto humanos, não conseguimos discernir, tornaram-se a pedra basilar da análise, interpretação e extração de conhecimento dos dados.Tradicionalmente, os algoritmos de aprendizagem automática baseiam-se em certas premissas acerca dos dados que têm disponíveis para treinar os seus modelos. Nomeadamente, que a distribuição das classes é equilibrada, que os conceitos existentes estão bem representados e as fronteiras de decisão bem delimitadas, que o tamanho do conjunto de dados é adequado à aprendizagem, que todos os padrões são consistentes e estão correctamente categorizados, e que não existem valores em falta. No entanto, na maioria dos domínios da vida quotidiana, estas premissas são violadas e os sistemas de aprendizagem automática ficam sujeitos a certas imperfeições dos dados, que dão origem a vários problemas como o desequilíbrio de classes, o aparecimento de pequenos disjuntos, a sobreposição de classes, a falta de representatividade nos conjuntos de treino, os dados ruidosos, as alterações dos conceitos entre as fases de treino e teste, e os dados em falta. Estas imperfeições podem surgir tanto devido a erros nos processos de aquisição, transmissão e recolha de dados, bem como devido à própria natureza dos domínios, e são responsáveis pela degradação do desempenho dos algoritmos e pela geração de previsões enviesadas.Em última análise, o que determina o sucesso dos sistemas de aprendizagem automática é a sua capacidade de transformar dados imperfeitos em dados inteligentes, ou seja, dados de elevada qualidade que permitam aos classificadores produzir inferências precisas e confiáveis acerca dos domínios. Para isso, é fundamental que se desenvolva um processo de compreensão dos dados completo e cuidadoso, o que requer uma forte percepção de diversos aspetos relacionados com os domínios e os dados em questão. Esta percepção pressupõe uma grande compreensão do viés gerado por cada imperfeição de dados e de como ele se alinha com o viés de aprendizagem dos algoritmos de classificação ou pré-processamento, de como as imperfeições dos dados se relacionam com outras características dos domínios, de como se exacerbam mutuamente ao surgir em combinação, e o motivo pelo qual certas situações são especialmente prejudiciais para as tarefas de classificação.O principal objetivo desta tese é discutir observações e estabelecer algumas recomendações relativas ao tratamento de domínios complexos afectados pela imperfeição dos dados. Estas tarefas compreendem a caracterização dos domínios de dados e o viés que eles podem introduzir nos sistemas de aprendizagem automática; a identificação, caracterização e quantificação de imperfeições de dados nos contextos da vida quotidiana; o estudo das condições adequadas para o uso eficiente de classificadores e técnicas de pré-processamento; e a análise do viés associado a certas configurações experimentais - todos os processos essenciais a uma compreensão dos dados eficaz.2022-09-07doctoral thesisinfo:eu-repo/semantics/publishedVersionhttps://hdl.handle.net/10316/114360https://hdl.handle.net/10316/114360TID:101703198engSantos, Miriam Raquel Seoane Pereira Seguroinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-03-26T14:52:58Zoai:estudogeral.uc.pt:10316/114360Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:07:30.757312Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Research Problems in Data Quality: Addressing Imbalanced and Missing Data
Problemas de Investigação na Qualidade de Dados: Tratamento de Dados Desequilibrados e Incompletos
title Research Problems in Data Quality: Addressing Imbalanced and Missing Data
spellingShingle Research Problems in Data Quality: Addressing Imbalanced and Missing Data
Santos, Miriam Raquel Seoane Pereira Seguro
Qualidade de Dados
Dados Imperfeitos
Dados Inteligentes
Dados Desequilibrados
Dados Incompletos
Data Quality
Imperfect Data
Smart Data
Imbalanced Data
Missing Data
Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
title_short Research Problems in Data Quality: Addressing Imbalanced and Missing Data
title_full Research Problems in Data Quality: Addressing Imbalanced and Missing Data
title_fullStr Research Problems in Data Quality: Addressing Imbalanced and Missing Data
title_full_unstemmed Research Problems in Data Quality: Addressing Imbalanced and Missing Data
title_sort Research Problems in Data Quality: Addressing Imbalanced and Missing Data
author Santos, Miriam Raquel Seoane Pereira Seguro
author_facet Santos, Miriam Raquel Seoane Pereira Seguro
author_role author
dc.contributor.author.fl_str_mv Santos, Miriam Raquel Seoane Pereira Seguro
dc.subject.por.fl_str_mv Qualidade de Dados
Dados Imperfeitos
Dados Inteligentes
Dados Desequilibrados
Dados Incompletos
Data Quality
Imperfect Data
Smart Data
Imbalanced Data
Missing Data
Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
topic Qualidade de Dados
Dados Imperfeitos
Dados Inteligentes
Dados Desequilibrados
Dados Incompletos
Data Quality
Imperfect Data
Smart Data
Imbalanced Data
Missing Data
Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
description Tese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2022
dc.date.none.fl_str_mv 2022-09-07
dc.type.driver.fl_str_mv doctoral thesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/114360
https://hdl.handle.net/10316/114360
TID:101703198
url https://hdl.handle.net/10316/114360
identifier_str_mv TID:101703198
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602583188471808