Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Bohrer, Jonas da Silveira
Orientador(a): Dorn, Márcio
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/278661
Resumo: A seleção de variáveis é um passo fundamental no aprendizado de máquina, servindo para reduzir a redundância do conjunto de dados, acelerar a velocidade de treinamento e melhorar a qualidade de modelos. Isto é particularmente crucial em conjuntos de dados de alta dimensionalidade, onde o excesso de variáveis representa desafios para tarefas de reconhecimento de padrões e análise de dados. Os métodos recentes propostos para dados de alta dimensionalidade são frequentemente desenvolvidos para domínios específicos, gerando uma falta de consenso sobre uma solução universalmente recomendada para casos de uso gerais. Este artigo propõe uma abordagem híbrida de seleção de variá- veis usando um algoritmo genético multiobjetivo para melhorar o desempenho da classificação e reduzir a dimensionalidade em diversas tarefas de classificação. A abordagem proposta restringe o espaço de busca de possíveis variáveis relevantes através da exploração dos resultados combinados de métodos clássicos de seleção de variáveis através de novos operadores de algoritmo genético. Isto permite a evolução de soluções combinadas potencialmente não exploradas pelos métodos originais, gerando conjuntos de variáveis otimizados em um processo que se adapta a diferentes condições de dados. Os resultados experimentais demonstram a eficácia do método proposto em casos de uso de alta dimensionalidade, oferecendo melhor desempenho de classificação com conjuntos de variáveis reduzidos. Em resumo, o método híbrido proposto oferece uma solução promissora para lidar com os desafios de conjuntos de dados de alta dimensionalidade, melhorando o desempenho da classificação em diversos domínios e condições de dados.