Clusterização de dados utilizando técnicas de redes complexas e computação bioinspirada

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Oliveira, Tatyana Bitencourt Soares de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-01042008-142253/
Resumo: A Clusterização de dados em grupos oferece uma maneira de entender e extrair informações relevantes de grandes conjuntos de dados. A abordagem em relação a aspectos como a representação dos dados e medida de similaridade entre clusters, e a necessidade de ajuste de parâmetros iniciais são as principais diferenças entre os algoritmos de clusterização, influenciando na qualidade da divisão dos clusters. O uso cada vez mais comum de grandes conjuntos de dados aliado à possibilidade de melhoria das técnicas já existentes tornam a clusterização de dados uma área de pesquisa que permite inovações em diferentes campos. Nesse trabalho é feita uma revisão dos métodos de clusterização já existentes, e é descrito um novo método de clusterização de dados baseado na identificação de comunidades em redes complexas e modelos computacionais inspirados biologicamente. A técnica de clusterização proposta é composta por duas etapas: formação da rede usando os dados de entrada; e particionamento dessa rede para obtenção dos clusters. Nessa última etapa, a técnica de otimização por nuvens de partículas é utilizada a fim de identificar os clusters na rede, resultando em um algoritmo de clusterização hierárquico divisivo. Resultados experimentais revelaram como características do método proposto a capacidade de detecção de clusters de formas arbitrárias e a representação de clusters com diferentes níveis de refinamento.