Solução automatizada de engenharia de características para problemas de aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Prado, Fernando Favoretti Vital do
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18112021-212329/
Resumo: Atualmente, o aprendizado de máquina vem sendo amplamente utilizado para auxiliar em diferentes atividades, desde a sugestão de vídeos ou séries até no auxílio ao diagnóstico médico. O desenvolvimento de soluções envolvendo aprendizado de máquina envolve uma série de tarefas que incluem entendimento do problema, entendimento dos dados, preparação dos dados, modelagem, avaliação e verificação dos resultados. A construção de modelos de aprendizado de máquina de alta qualidade é, tipicamente, interativo e complexo, exigindo conhecimento específico e um grande esforço do executor. O aprendizado de máquina automatizado AutoML procura automatizar partes desse processo. Uma etapa importante do desenvolvimento desse tipo de solução é a engenharia de características que aplica transformações nos dados originais, tornando-os mais representativos para o modelo final. O presente trabalho atua no escopo de apresentar uma solução que automatize o processo de engenharia de características. A estratégia resultante da aplicação de técnicas de geração e seleção automatizadas de características em um arcabouço único é capaz de propiciar melhoria no desempenho de diferentes algoritmos aplicados a problemas de classificação quando comparados a um baseline inicial frente a quatro diferentes métricas. A solução apresentada neste trabalho provê a opção de automatização do arcabouço completo de engenharia de características, para o contexto específico de problemas de aprendizado do tipo classificação que utilizam dados tabulares