Seleção de atributos usando abordagem Wrapper para classificação hierárquica multirrótulo
Ano de defesa: | 2018 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Ponta Grossa |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/3334 |
Resumo: | O avanço tecnológico traz como consequência um grande desafio, que é o de encontrar uma forma de armazenar e extrair conhecimento útil de uma massa de dados. Uma alternativa para esse cenário é a utilização de ferramentas da Mineração de Dados, sendo uma das técnicas empregadas, a Seleção de Atributos. A Seleção de Atributos é uma das técnicas que podem ser utilizadas para a redução de dimensionalidade de base de dados, tendo como objetivo principal identificar os atributos relevantes aumentando assim o poder preditivo do classificador. Basicamente, são três as abordagens para a Seleção de Atributos: Embutida, Filtro e Wrapper. No contexto de classificação hierárquica multirrótulo, onde as classes a serem preditas estão estruturadas de acordo com uma hierarquia, poucos trabalhos na literatura apresentam propostas de técnicas de seleção de atributos. Desse modo, neste trabalho propõe-se um novo método de seleção de atributos baseado na abordagem Wrapper para classificação hierárquica multirrótulo global. O método FSW-HMC é dividido em duas etapas principais, sendo estas a estratégia de busca (Sistema Imunológico Artificial e Algoritmo Genético) e avaliação do subconjunto (classificador hierárquico multirrótulo Clus-HMC e medida de desempenho AUPRC). Para a realização dos experimentos são utilizados dados biológicos de 10 bases de dados da Ontologia Gênica, sendo que as classes das mesmas estão estruturadas em uma hierarquia no formato de um Grafo Acíclico Direcionado (DAG). Ao realizar-se a análise dos subconjuntos gerados pode-se notar que houve uma redução significativa do número de atributos superior a 63%. Após a análise dos subconjuntos, pode-se observar que a diferença da medida AUPRC obtida nos subconjuntos para a base com todos os atributos é inferior a 0,025. |