Modelos de co-clustering fuzzy baseados em kernel no espaço de características com ponderação automática das variáveis

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: SÁ, José Nataniel Andrade de
Orientador(a): CARVALHO, Francisco de Assis Tenório de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/49514
Resumo: Nesta dissertação, propomos métodos de co-clustering fuzzy baseados em kernel com ponderação automática das variáveis via distâncias adaptativas. Algoritmos de co-clustering realizam o agrupamento simultâneo de objetos e variáveis. Esses métodos organizam a matriz de dados em blocos homogêneos, conseguindo fornecer insights a respeito da associação entre objetos e variáveis. Funções kernel têm sido usadas com sucesso nos algoritmos de agrupa- mento convencional para mitigar o problema da separabilidade dos grupos, que também pode afetar os algoritmos de co-clustering. O uso de distâncias adaptativas nos permite aprender di- namicamente os pesos das variáveis durante o processo de otimização, levando a uma melhora no desempenho dos algoritmos. Distâncias adaptativas mudam a cada iteração do algoritmo e podem ser a mesma para todos os grupos (distância adaptativa global) ou diferentes de um grupo para outro (distância adaptativa local). Nesse sentido, três algoritmos foram propostos: (i) O Gaussian Kernel Fuzzy Double K-Means (GKFDK) é o algoritmo base, o qual combina co-clustering com o kernel gaussiano, mas considera que todas as variáveis são igualmente im- portantes na formação dos grupos de objetos. (ii) O Gaussian Kernel Fuzzy Double K-Means Based on Global Adaptive Distance (GKFDK-GP) é uma extensão do GKFDK que realiza a ponderação de variáveis. O GKFDK-GP considera que as variáveis têm o mesmo peso para todos os grupos de objetos. (iii) O Gaussian Kernel Fuzzy Double K-Means Based on Local Adaptive Distance (GKFDK-LP) também é uma extensão do GKFDK que realiza a pondera- ção de variáveis. Contudo, o GKFDK-LP considera que as variáveis têm pesos diferentes para cada grupo de objetos. Experimentos realizados com dados sintéticos e reais, em comparação com algoritmos de co-clustering e de agrupamento convencional do estado da arte, mostraram a eficácia dos algoritmos propostos. Os modelos com ponderação das variáveis apresentaram os melhores resultados no geral, onde o GKFDK-LP obteve o melhor desempenho entre todos, seguido do GKFDK-GP. O algoritmo base GKFDK obteve o terceiro melhor desempenho, em relação à maioria das métricas de avaliação.