Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Santana, Alvaro Mateus lattes
Orientador(a): Borges, Helyane Bronoski lattes
Banca de defesa: Borges, Helyane Bronoski lattes, Rocha, José Carlos Ferreira da lattes, Matos, Simone Nasser lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Ponta Grossa
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/28969
Resumo: Dados faltantes são problemas comumente enfrentados por algoritmos de aprendizagem de máquina (AM) devido a diversos motivos, como por exemplo falha na inserção manual, medições incorretas de determinado sensor entre outros. Considerando isso, se torna importante usar métodos adequados para imputar dados ausentes em conjuntos de dados para tornar a aprendizagem do algoritmo mais eficiente. O problema de dados faltantes é mais desafiador quando se trata de bases de dados com classificação hierárquica multirrótulo com hierarquia estruturadas por um Grafo Acíclico Direcionado ou DAG. Este trabalho está inserido neste cenário, onde as classes estão dispostas em uma hierarquia podendo cada instância possuir mais de uma classe. Para resolver o este problema, foi criado um método de imputação de dados faltantes usando uma abordagem baseada em três tipos de regressão: linear, polinomial e múltipla. O algoritmo inicialmente verifica se há correlação entre os dados, utilizando a regressão somente caso esta correlação exista, caso contrário a abordagem de média dos valores observados é adotada. O método proposto é dividido em três etapas: verificação hierárquica multirrótulo, cálculo de correlação e aplicação do modelo. Para realização dos experimentos foram utilizadas 7 bases de dados da Ontologia Gênica com hierarquia estruturadas em formato de DAG. Os resultados mostraram que o uso da regressão apresentou a métrica baseada na área sob a curva de previsão e revocação (AUPRC) superior em 3 das bases de dados testadas quando comparadas as abordagens de não imputação de dados faltantes e média dos valores observados. Além disso, foram realizados os testes estatísticos de Friedman e Wilcoxon buscando comparar os resultados de todos os algoritmos. Os testes expõem certa diferença entre os resultados, porém mostraram que estatisticamente a diferença não é significativa.