Detalhes bibliográficos
Ano de defesa: |
2005 |
Autor(a) principal: |
Cléa Gomes da Silva, Alzennyr |
Orientador(a): |
de Assis Tenório Carvalho, Francisco |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/2797
|
Resumo: |
A análise de dados simbólicos (Symbolic Data Analysis) é um novo domínio na área de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos por variáveis que podem assumir como valor conjuntos de categorias, intervalos ou distribuições de probabilidade. Essas novas variáveis permitem levar em conta a variabilidade e/ou a incerteza presente nos dados. O tratamento de dados simbólicos através de técnicas estatísticas e de aprendizagem de máquina necessita da introdução de medidas de distância capazes de manipular tal tipo de dado. Com esse objetivo, diversas funções de dissimilaridade têm sido propostas na literatura. Entretanto, nenhum estudo comparativo acerca do desempenho de tais funções em problemas que envolvem simultaneamente dados simbólicos booleanos e modais foi realizado. A principal contribuição dessa dissertação é realizar uma análise comparativa e uma avaliação empírica sobre funções de dissimilaridade para dados simbólicos, uma vez que esse tipo de estudo, apesar de muito relevante, é quase inexistente na literatura. Além disso, este trabalho também introduz novas funções de dissimilaridade que podem ser usadas no agrupamento dinâmico de dados simbólicos. Os algoritmos de agrupamento dinâmico consistem em obter, simultaneamente, uma partição em um número fixo de classes e a identificação de um representante para cada classe, minimizando localmente um critério que mede a adequação entre as classes e os seus representantes. Para validar esse estudo, foram realizados experimentos com bases de dados de referência na literatura e dois conjuntos de dados artificiais de intervalos com diferentes graus de dificuldade de classificação, objetivando a comparação das funções avaliadas. A precisão dos resultados foi mensurada por um índice externo de agrupamento aplicado na validação cruzada não supervisionada, para as bases de dados reais, e também no quadro de uma experiência Monte Carlo, para as bases de dados artificiais. Com os resultados alcançados é possível verificar a adequação das diversas funções de dissimilaridade aos diferentes tipos de dados simbólicos (multivalorado, multivalorado ordinal, intervalar, e modal de mesmo suporte e de suportes diferentes), bem como identificar as melhores configurações de funções. Testes estatísticos validam as conclusões |