Research Problems in Data Quality: Addressing Imbalanced and Missing Data

Santos, Miriam Raquel Seoane Pereira Seguro

Research Problems in Data Quality: Addressing Imbalanced and Missing Data

Bibliographic Details
Main Author:	Santos, Miriam Raquel Seoane Pereira Seguro
Publication Date:	2022
Language:	eng
Source:	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full:	https://hdl.handle.net/10316/114360
Summary:	Tese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia

Item metadata

id	RCAP_5eb9dfaed681a7abbdded690ffc81ea0
oai_identifier_str	oai:estudogeral.uc.pt:10316/114360
network_acronym_str	RCAP
network_name_str	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str	https://opendoar.ac.uk/repository/7160
spelling	Research Problems in Data Quality: Addressing Imbalanced and Missing DataProblemas de Investigação na Qualidade de Dados: Tratamento de Dados Desequilibrados e IncompletosQualidade de DadosDados ImperfeitosDados InteligentesDados DesequilibradosDados IncompletosData QualityImperfect DataSmart DataImbalanced DataMissing DataCiências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informáticaTese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaNowadays, data is deeply entangled in nearly all aspects of our daily lives, from social, business, transportation, energy, and even medical applications. Data is among us, it's continuously growing, and its potential is immensely powerful. Nevertheless, its only value relies on our ability to understand it and transform it into meaningful insights. This task currently falls upon the shoulders of machine learning algorithms, that due to their ability to establish connections, patterns, and trends we humans cannot see, have become the cornerstone in analysing, interpreting, and extracting knowledge from data.Traditional machine learning algorithms expect their input data to be well-behaved regarding several factors, such as balanced class distributions, well-represented concepts and decision boundaries, an adequate training set size, consistent and correctly labelled instances, and a complete set of observed values in all features, among others. However, when applied "in the wild", machine learning algorithms are inevitably faced with data imperfection, as many of these assumptions are broken, giving rise to several data problems such as imbalanced data, small disjuncts, class overlap, lack of data, noisy data, dataset shift, and missing data. These imperfections may arise either due to errors in the data acquisition, transmission, and collection processes, or due to the intrinsic nature of the domains, and they are responsible for the degradation of classification performance, and the generation of biased predictions.What ultimately determines the success of machine learning applications is therefore their ability to transform imperfect data into smart data, i.e., data of sufficient quality to allow classifiers to draw accurate and reliable inferences on the domain.In order to move from imperfect to smart data, it is critical to develop a thorough data understanding, which comprehends a well-grounded perception of a multitude of aspects regarding the domain and the data at hand. This involves a strong understanding of the bias generated by each data imperfection and how it aligns with the learning bias of classification or preprocessing algorithms, how data imperfections relate to other characteristics of the domains, how they exacerbate each other when appearing in combination, and why certain circumstances are especially harmful to classification tasks. Following this line of thought, this thesis dedicates time and effort to the characterisation and understanding of data imperfections. We focus particularly on the problems of imbalanced data and missing data, which currently constitute two major lines of research, and further discuss the issues of small disjuncts and class overlap within the scope of imbalanced data. Accordingly, our main goal is to transfer some thoughts, discuss observations, and produce perceptive insights on working with complex scenarios where these data imperfections occur. This comprises the characterisation of the data domains and the bias they may entail; the identification, characterisation, and quantification of data imperfections in real-world domains; the identification of proper conditions for the efficient use of classifiers and preprocessing techniques; and the analysis of the bias associated with certain experimental setup hazards - all of which fall onto our notion of data understanding.Nos dias que correm, os dados encontram-se profundamente incorporados em praticamente todos os aspetos da nossa vida quotidiana, desde aplicações sociais, comerciais, de transporte, energia e até médicas. Os dados tornaram-se parte do tecido das nossas vidas, estão a crescer continuamente e têm um potencial transformador enorme. No entanto, o seu valor está irrefutavelmente dependente da nossa capacidade de os interpretar e transformar em informação útil. Atualmente, essa tarefa recai sobre os sistemas de aprendizagem automática que, devido à sua capacidade de estabelecer conexões e identificar padrões e tendências que nós, enquanto humanos, não conseguimos discernir, tornaram-se a pedra basilar da análise, interpretação e extração de conhecimento dos dados.Tradicionalmente, os algoritmos de aprendizagem automática baseiam-se em certas premissas acerca dos dados que têm disponíveis para treinar os seus modelos. Nomeadamente, que a distribuição das classes é equilibrada, que os conceitos existentes estão bem representados e as fronteiras de decisão bem delimitadas, que o tamanho do conjunto de dados é adequado à aprendizagem, que todos os padrões são consistentes e estão correctamente categorizados, e que não existem valores em falta. No entanto, na maioria dos domínios da vida quotidiana, estas premissas são violadas e os sistemas de aprendizagem automática ficam sujeitos a certas imperfeições dos dados, que dão origem a vários problemas como o desequilíbrio de classes, o aparecimento de pequenos disjuntos, a sobreposição de classes, a falta de representatividade nos conjuntos de treino, os dados ruidosos, as alterações dos conceitos entre as fases de treino e teste, e os dados em falta. Estas imperfeições podem surgir tanto devido a erros nos processos de aquisição, transmissão e recolha de dados, bem como devido à própria natureza dos domínios, e são responsáveis pela degradação do desempenho dos algoritmos e pela geração de previsões enviesadas.Em última análise, o que determina o sucesso dos sistemas de aprendizagem automática é a sua capacidade de transformar dados imperfeitos em dados inteligentes, ou seja, dados de elevada qualidade que permitam aos classificadores produzir inferências precisas e confiáveis acerca dos domínios. Para isso, é fundamental que se desenvolva um processo de compreensão dos dados completo e cuidadoso, o que requer uma forte percepção de diversos aspetos relacionados com os domínios e os dados em questão. Esta percepção pressupõe uma grande compreensão do viés gerado por cada imperfeição de dados e de como ele se alinha com o viés de aprendizagem dos algoritmos de classificação ou pré-processamento, de como as imperfeições dos dados se relacionam com outras características dos domínios, de como se exacerbam mutuamente ao surgir em combinação, e o motivo pelo qual certas situações são especialmente prejudiciais para as tarefas de classificação.O principal objetivo desta tese é discutir observações e estabelecer algumas recomendações relativas ao tratamento de domínios complexos afectados pela imperfeição dos dados. Estas tarefas compreendem a caracterização dos domínios de dados e o viés que eles podem introduzir nos sistemas de aprendizagem automática; a identificação, caracterização e quantificação de imperfeições de dados nos contextos da vida quotidiana; o estudo das condições adequadas para o uso eficiente de classificadores e técnicas de pré-processamento; e a análise do viés associado a certas configurações experimentais - todos os processos essenciais a uma compreensão dos dados eficaz.2022-09-07doctoral thesisinfo:eu-repo/semantics/publishedVersionhttps://hdl.handle.net/10316/114360https://hdl.handle.net/10316/114360TID:101703198engSantos, Miriam Raquel Seoane Pereira Seguroinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-03-26T14:52:58Zoai:estudogeral.uc.pt:10316/114360Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:07:30.757312Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv	Research Problems in Data Quality: Addressing Imbalanced and Missing Data Problemas de Investigação na Qualidade de Dados: Tratamento de Dados Desequilibrados e Incompletos
title	Research Problems in Data Quality: Addressing Imbalanced and Missing Data
spellingShingle	Research Problems in Data Quality: Addressing Imbalanced and Missing Data Santos, Miriam Raquel Seoane Pereira Seguro Qualidade de Dados Dados Imperfeitos Dados Inteligentes Dados Desequilibrados Dados Incompletos Data Quality Imperfect Data Smart Data Imbalanced Data Missing Data Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
title_short	Research Problems in Data Quality: Addressing Imbalanced and Missing Data
title_full	Research Problems in Data Quality: Addressing Imbalanced and Missing Data
title_fullStr	Research Problems in Data Quality: Addressing Imbalanced and Missing Data
title_full_unstemmed	Research Problems in Data Quality: Addressing Imbalanced and Missing Data
title_sort	Research Problems in Data Quality: Addressing Imbalanced and Missing Data
author	Santos, Miriam Raquel Seoane Pereira Seguro
author_facet	Santos, Miriam Raquel Seoane Pereira Seguro
author_role	author
dc.contributor.author.fl_str_mv	Santos, Miriam Raquel Seoane Pereira Seguro
dc.subject.por.fl_str_mv	Qualidade de Dados Dados Imperfeitos Dados Inteligentes Dados Desequilibrados Dados Incompletos Data Quality Imperfect Data Smart Data Imbalanced Data Missing Data Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
topic	Qualidade de Dados Dados Imperfeitos Dados Inteligentes Dados Desequilibrados Dados Incompletos Data Quality Imperfect Data Smart Data Imbalanced Data Missing Data Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
description	Tese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate	2022
dc.date.none.fl_str_mv	2022-09-07
dc.type.driver.fl_str_mv	doctoral thesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/10316/114360 https://hdl.handle.net/10316/114360 TID:101703198
url	https://hdl.handle.net/10316/114360
identifier_str_mv	TID:101703198
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP
instname_str	FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv	info@rcaap.pt
_version_	1833602583188471808

Research Problems in Data Quality: Addressing Imbalanced and Missing Data

Similar Items