Métodos híbridos para agrupamento de dados relacionais com múltiplas visões

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: GUSMÃO, Renê Pereira de
Orientador(a): CARVALHO, Francisco de Assis Tenório de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/33915
Resumo: O agrupamento de dados com múltiplas visões é um problema emergente e que vem sendo pesquisado nos últimos anos. Modelos para agrupamento de dados relacionais presentes na literatura apresentam rápida convergência e, consequentemente, o espaço de soluções não é explorado de forma adequada. Esta tese de doutorado teve como objetivo a investigação e desenvolvimento de métodos híbridos baseados em otimização por nuvem de partículas para resolver o problema do agrupamento de dados relacionais com múltiplas visões. Os métodos híbridos desenvolvidos combinam otimização por nuvem de partículas com métodos de agrupamento baseados em matrizes de dissimilaridades com o objetivo de se beneficiar das características de cada abordagem e explorar de melhor forma o espaço de soluções. A abordagem desenvolvida foi avaliada para agrupamento rígido e nebuloso de dados relacionais. Além disso, devido a importância da escolha de uma função de aptidão apropriada, diversos índices para validação de agrupamentos foram investigados e adaptados para considerar dissimilaridades fornecidas por várias matrizes bem como pesos de relevância para cada matriz. Seis estudos foram realizados para validação dos modelos híbridos desenvolvidos. No primeiro estudo, o modelo híbrido para agrupamento rígido de dados relacionais com única visão foi comparado a outros métodos da literatura e obteve resultados competitivos. No segundo estudo, os agrupamentos rígidos gerados por onze funções de aptidão para diversas bases de dados reais foram avaliados em termos dos índices externos medida F e índice ajustado de Rand tanto para o modelo que considera dados com única visão quanto para os modelos para dados com múltiplas visões. As funções de aptidão que se destacaram dentre as demais foram: índice da silhueta, índice de Xu e homogeneidade intra-cluster. Os resultados obtidos pelo índice da silhueta e pela homogeneidade foram selecionados para comparação com os resultados obtidos por outros métodos da literatura no terceiro estudo. Verificou-se que a abordagem proposta apresentou melhores resultados para a maioria dos casos analisados. Três estudos também foram realizados para validação dos modelos híbridos para agrupamento nebuloso de dados com única visão e com várias visões. As funções de aptidão para agrupamento nebuloso que se destacaram dentre as demais foram: silhueta simplificada e coeficiente da partição. A análise dos resultados mostrou que a abordagem proposta para agrupamento nebuloso também obteve desempenho competitivo e melhor em alguns casos em comparação a outros métodos da literatura. Os resultados demonstraram que o problema do agrupamento de dados relacionais com múltiplas visões pode ser melhorado de forma significativa através de métodos híbridos baseados em otimização de enxame. Portanto, tais achados reforçam a importância da aplicação de técnicas tais como algoritmos baseados em otimização de enxame no campo da mineração de dados.