Characterization of automated machine learning fitness landscapes

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Cristiano Guimarães Pimenta
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/62093
https://orcid.org/0000-0003-2809-8663
Resumo: Aprendizado de Máquina Automatizado (AutoML) tem o objetivo de selecionar e configurar pipelines de aprendizado de máquina automaticamente, sem exigir conhecimentos profundos do usuário. Métodos de AutoML utilizam um espaço de busca que contém possíveis soluções e tentam encontrar o melhor pipeline para um problema de aprendizado específico. Entretanto, pouco se sabe sobre quais são as características desses espaços de busca e como elas afetam o desempenho de métodos de busca. Uma forma de descrever os espaços de busca é por meio de Análise de Fitness Landscape (FLA), uma técnica muito utilizada para descrever o espaço de busca de problemas de otimização combinatória. O presente trabalho adapta métricas clássicas de FLA, tais como Neutralidade, Correlação de Distância de Fitness (FDC) e Distância de Correlação ao contexto de AutoML, cujos espaços de busca são complexos, uma vez que contêm variáveis discretas, contínuas, categóricas e condicionais, de forma totalmente independente do método de busca utilizado para explorar o espaço. Além disso, é feita uma avaliação de como as características do espaço de busca afetam o desempenho de dois métodos de busca baseados em otimização Bayesiana: Tree-structured Parzen Estimator (TPE) e Sequential Model-based Algorithm Configuration (SMAC). De forma a utilizar FLA no contexto de AutoML, nós propomos uma representação em árvore para os pipelines de aprendizado de máquina capaz de capturar sua semântica, uma definição de vizinhança baseada em um operador de mutação e uma medida semântica de distância entre pipelines. Análises de Neutralidade sugerem que espaços de busca maiores tendem a ter mais áreas com valores iguais, ou quase iguais, de fitness, uma característica que pode melhorar a habilidade do TPE de explorar o espaço e encontrar boas soluções. Espaços de busca maiores tendem a ser mais enrugados, de acordo com a métrica de Distância de Correlação, e normalmente são mais difíceis para os otimizadores. FDC se mostrou uma métrica pouco informativa em relação à dificuldade do problema de encontrar o melhor pipeline de aprendizado de máquina. Além disso, a utilização de ótimos locais para calcular a métrica pode levar a resultados bastante diferentes em comparação ao uso do ótimo global, cujo cálculo é normalmente inviável para problemas de AutoML. Por outro lado, desempenho do otimizador SMAC se mostrou menos afetado por alterações nas características do espaço, quando comparado ao TPE.