Meta-analysis of clustering problem instances and techniques in machine learning

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Fernandes, Luiz Henrique dos Santos [UNIFESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de São Paulo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11600/63559
Resumo: A seleção do algoritmo mais efetivo a ser aplicado em determinada instância, baseado nas características desta, é um problema que vem sendo estudado na área de meta-aprendizado. Nesta abordagem, o propósito é estabelecer uma relação entre os atributos dos problemas e o desempenho de um conjunto de algoritmos que podem ser utilizados para resolvê-los. Meta-aprendizado vem sendo empregado em diversos problemas de Aprendizado de Máquina, como classificação, regressão, otimização e agrupamento de dados, por exemplo. Agrupamento de dados, ou data clustering, é um problema exigido em várias aplicações, desde segmentação de mercado até análise de dados baseados no genoma. No entanto, a definição de um agrupamento, ou cluster, não é única. Existem vários algoritmos com diferentes vieses que encontram diferentes tipos de estruturas nos dados. Por exemplo, pode-se maximizar a separabilidade do clusters ou encontrar regiões densas no espaço para definição dos clusters. A finalidade da presente pesquisa é avaliar objetivamente o desempenho de algoritmos de agrupamento em Aprendizado de Máquina e analisar o impacto da escolha de instâncias de teste por meio de uma abordagem baseada em um framework de espaço de instâncias que foi aplicado com sucesso em problemas de classificação e regressão. Durante o estudo, foram abordados diversos aspectos interessantes do problema de agrupamento que possibilitam a exploração das propriedades e limitações das instâncias de teste. Foi proposta, também, uma metodologia para geração de novas instâncias de teste para problemas de agrupamento, no intuito de preencher e diversificar o espaço de instâncias. Com isso, pôde-se analisar e compreender as relações das instâncias com o desempenho dos diversos algoritmos de agrupamento de dados disponíveis atualmente, de forma a revelar as forças e fraquezas dos algoritmos em relação ao grau de dificuldade inerente às variadas instâncias do problema de agrupamento de dados.