Agrupamento de dados simbólicos intervalares usando funções de Kenel

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: COSTA, Anderson Fabiano Batista Ferreira da
Orientador(a): SOUZA, Renata Maria Cardoso Rodrigues de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/2129
Resumo: A Análise de dados simbólicos (ADS) ou Symbolic Data Analysis é uma nova abordagem na área de descoberta automática de conhecimentos que visa desenvolver métodos para dados descritos por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade. O objetivo deste trabalho é estender métodos de agrupamento clássicos para dados simbólicos intervalares baseados em funções de kernel. A aplicação de funções de kernel tem sido amplamente utilizado na classificação não supervisionada para dados clássicos e apresenta bons resultados quando o conjunto apresenta uma disposição não-linear dos dados. No entanto, na literatura de ADS ainda necessita de métodos para identificar grupos não lineares. Este trabalho engloba os paradigmas de agrupamento rígido (hard) e difuso (fuzzy), e realiza tais agrupamentos utilizando as funções de kernel em um espaço de alta dimensão, conhecido como espaço de características. Os métodos propostos neste trabalho consideram duas variantes comumente utilizadas em abordagens de kernel, onde uma considera que o protótipo dos grupos está definido neste espaço de características de alta dimensão e outra que considera o protótipo definido no espaço original de entradas. Os métodos propostos são comparados com variações do método K-médias existentes na literatura de ADS através de experimentos realizados com dados simulados e dados reais intervalares fazendo uso do experimento Monte Carlo e métricas estatísticas que evidenciam o desempenho superior dos métodos propostos