Detalhes bibliográficos
Ano de defesa: |
2005 |
Autor(a) principal: |
Tupinambá D'Oliveira Júnior, Simith |
Orientador(a): |
de Assis Tenório Carvalho, Francisco |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/2805
|
Resumo: |
Com os progressos recentes nas tecnologias das ciências de informacão, diferentes tecnicas são introduzidas para sintetizar, analisar e extrair conhecimentos das informações armazenadas em enormes bases de dados. A analise de dados simbolicos (SDA) e um dominio na area de descoberta automatica de conhecimentos (KDD), relacionada com analise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco de dados. SDA visa generalizar os metodos da analise exploratoria de dados e as tecnicas estatisticas (analise fatorial, regress~ao, classificac~ao etc.) par dados simbolicos. Esses novos dados são mais complexos do que os dados classicos, pois contêm variação interna e são estruturados. Este trabalho introduz um classificador para dados descritos por vetores de valores quantitativos baseado em regi~oes de tipo casca convexa. A ideia central desta abordagem e construir regiões que descrevem e discriminem classes de exemplos observados. Nos classificadores para dados simbolicos baseados em regi~oes existentes na literatura de SDA, a etapa de aprendizagem fornece a descric~ao de uma classe por uma região (ou conjunto de regiões), definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Esta descricão e obtida atraves de um operador simbolico (junção) e um Grafo de Vizinhos Mutuos. Na etapa de alocação, as novas observações são classificadas usando diferentes funções de matching. No classificador proposto neste trabalho, a descrição de cada classe e uma região (ou conjunto de regiões) em Rp definida pela casca convexa formada pelos seus objetos. Esta nova abordagem tem, como proposito, reduzir a sobre generalização que e produzida quando a classe e descrita por uma região (ou conjunto de regiões) definida pelo hipercubo formado pelos objetos da classe e, por isso, melhorar o desempenho do classificador.Na etapa de alocação, cada nova observação e afetada a uma classe ou grupo, de acordo com uma função de dissimilaridade que compara a descric~ao de uma classe (uma região ou um conjunto de regiões) com um ponto em Rp. Diferentes conjuntos de dados reais e artificiais são usados nesta avaliacão. Para os dados simulados, a performance do classificador proposto e avaliada pela taxa de erro de classificação, tempo de execuc~ao e memoria utilizada, em comparac~ao com um classificador para dados simbolicos que usa hiper-cubos para descrever as classes. Esta performance e computada no quadro de uma simulação de tipo Monte Carlo. Para os dados reais, a performance do classificador proposto tambem e avaliada pela taxa de erro de classificação, tempo de execução e memoria utilizada em comparação com os algoritmos Part e J48. A performance, para o caso real, e computada usando o 10-Fold repetido. Os resultados mostraram que, em termos da taxa de erro de classificação, o metodo proposto e superior ao metodo em que as regiões são representadas por hiper-cubos, porem o mesmo não ocorre em relação aos algoritmos Part e J48, pois, em algumas situações, o metodo proposto e superior a esses algoritmos |