Truth or utility: transductive regularizer for feature selection

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: André Correia Lacerda Mafra
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/66382
Resumo: Em Machine Learning, a generalização é muito desejável, pois evita que o desempenho do modelo decaia consideravelmente com novos dados. No entanto, encontrar regras gerais é muito difícil, uma vez que visa modelar uma solução que funcione em qualquer conjunto de dados possível. Portanto é muito comum que um modelo não alcance resultados satisfatórios em um conjunto de teste, mesmo que diferentes técnicas de generalização sejam aplicadas. Dito isto, a transdução é uma técnica que, ao contrário da indução, visa inferir uma solução aplicável a um conjunto alvo específico B, a partir de um conjunto de fontes A. Desta forma, a transdução não tenta resolver um problema geral, ela foca em dar uma solução para um conjunto de dados específico, o que reduz drasticamente a complexidade de encontrar uma boa solução. A motivação para este trabalho é o fato de que os modelos de aprendizado de máquina têm dificuldade para generalizar, por outro lado, alguns cenários estão interessados apenas em uma solução que seja boa o suficiente para um conjunto específico de dados. Este cenário se beneficia mais da transdução do que da indução e reduz consideravelmente o nível de dificuldade para encontrar uma boa solução para o conjunto de dados específico. O objetivo deste trabalho é conseguir selecionar características que otimizem os resultados em um conjunto alvo específico, partindo de um conjunto fonte, onde não temos rótulos para o conjunto alvo B, que são cenários onde não é possível retreinar o modelo para B ou aplicar a aprendizagem indutiva. O método proposto pode ser aplicado a qualquer algoritmo de seleção de características existente, pois se propõe a continuar otimizando o algoritmo por qualquer uma das métricas que ele já utiliza, além de uma nova métrica que mede a correlação da importância de um conjunto de atributos tanto no treinamento quanto no conjunto de teste.