[en] A STUDY ON ELLIPSOIDAL CLUSTERING

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: RAPHAEL ARAUJO SAMPAIO
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=2
http://doi.org/10.17771/PUCRio.acad.36126
Resumo: [pt] A análise de agrupamento não supervisionado, o processo que consistem em agrupar conjuntos de pontos de acordo com um ou mais critérios de similaridade, tem desempenhado um papel essencial em vários campos. O dois algoritmos mais populares para esse processão são o k-means e o Gaussian Mixture Models (GMM). O primeiro atribui cada ponto a um único cluster e usa a distância Euclidiana como similaridade. O último determina uma matriz de probabilidade de pontos pertencentes a clusters, e usa distância de Mahalanobis como similaridade. Além da diferença no método de atribuição - a chamada atribuição hard para o primeiro e a atribuição soft para o último - os algoritmos também diferem em relação à estrutura do cluster, ou forma: o k-means considera estruturas esféricas no dados; enquanto o GMM considera elipsoidais através da estimação de matrizes de covariância. Neste trabalho, um problema de otimização matemática que combina a atribuição hard com a estrutura do cluster elipsoidal é detalhado e formulado. Uma vez que a estimativa da covariância desempenha um papel importante no comportamento de estruturas agrupamentos elipsoidais, técnicas de regularizações são exploradas. Neste contexto, dois métodos de meta-heurística, uma perturbação Random Swap e um algoritmo híbrido genético, são adaptados, e seu impacto na melhoria do desempenho dos métodos é estudado. O objetivo central dividido em três: compreender as condições em que as estruturas de agrupamento elipsoidais são mais benéficas que as esféricas; determinar o impacto da estimativa de covariância com os métodos de regularização; e analisar o efeito das meta-heurísticas de otimização global na análise de agrupamento não supervisionado. Finalmente, a fim de fornecer bases para a comparação das presentes descobertas com futuros trabalhos relacionados, foi gerada uma base de dados com um extenso benchmark contendo análise das variações de diferentes tamanhos, formas, número de grupos e separabilidade, e seu impacto nos resultados de diferentes algoritmos de agrupamento. Além disso, pacotes escritos na linguagem Julia foram disponibilizados com os algoritmos estudados ao longo deste trabalho.