Composição de um indicador de qualidade para classificações binárias com base na qualidade e na complexidade dos dados

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Mendes, Renê de Ávila
Orientador(a): Silva, Leandro Augusto da
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
eng
Instituição de defesa: Universidade Presbiteriana Mackenzie
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
SEM
Link de acesso: https://dspace.mackenzie.br/handle/10899/29388
Resumo: A classificação de dados é uma tarefa de mineração de dados que consiste na aplicação de um algoritmo a conjunto de dados de treinamento com a finalidade de inferir a classe de um objeto (não classificado) em análise. Uma parte significa tiva do desempenho do algoritmo de classificação depende da complexidade e da qualidade do conjunto de dados. A Complexidade dos Dados envolve a investigação dos efeitos da dimensionalidade, da sobreposição de atributos e da separabilidade das classes. A Qualidade dos Dados, no que lhe concerne, se concentra em aspectos como ruídos e valores ausentes. Na literatura são poucos os estudos que debatem a relação entre os fatores, complexidade e qualidade, visando ponderar a influência de cada um na qualidade do desempenho de um algoritmo. Esta pesquisa aplica a Modelagem de Equações Estruturais (SEM) e o algoritmo Partial Least Squa res Structural Equation Modeling (PLS-SEM) e, de forma inovadora, apresenta um indicador composto, chamado de Indicador de Qualidade de Classificação para con juntos de dados binários (IQCb), que associa as contribuições da Complexidade dos Dados e da Qualidade dos Dados para a Qualidade da Classificação. A mode lagem experimental com 178 conjuntos de dados obtidos do repositório OpenML mostrou que o controle da complexidade melhora os resultados da classificação mais do que a qualidade dos dados. Adicionalmente, esta tese também apresenta uma ferramenta visual para a avaliação de conjuntos de dados quanto ao desempenho de classificação.