Classificador simbólico baseado em regiões de tipo casca convexa

Detalhes bibliográficos
Ano de defesa: 2005
Autor(a) principal: Tupinambá D'Oliveira Júnior, Simith
Orientador(a): de Assis Tenório Carvalho, Francisco
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/2805
Resumo: Com os progressos recentes nas tecnologias das ciências de informacão, diferentes tecnicas são introduzidas para sintetizar, analisar e extrair conhecimentos das informações armazenadas em enormes bases de dados. A analise de dados simbolicos (SDA) e um dominio na area de descoberta automatica de conhecimentos (KDD), relacionada com analise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco de dados. SDA visa generalizar os metodos da analise exploratoria de dados e as tecnicas estatisticas (analise fatorial, regress~ao, classificac~ao etc.) par dados simbolicos. Esses novos dados são mais complexos do que os dados classicos, pois contêm variação interna e são estruturados. Este trabalho introduz um classificador para dados descritos por vetores de valores quantitativos baseado em regi~oes de tipo casca convexa. A ideia central desta abordagem e construir regiões que descrevem e discriminem classes de exemplos observados. Nos classificadores para dados simbolicos baseados em regi~oes existentes na literatura de SDA, a etapa de aprendizagem fornece a descric~ao de uma classe por uma região (ou conjunto de regiões), definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Esta descricão e obtida atraves de um operador simbolico (junção) e um Grafo de Vizinhos Mutuos. Na etapa de alocação, as novas observações são classificadas usando diferentes funções de matching. No classificador proposto neste trabalho, a descrição de cada classe e uma região (ou conjunto de regiões) em Rp definida pela casca convexa formada pelos seus objetos. Esta nova abordagem tem, como proposito, reduzir a sobre generalização que e produzida quando a classe e descrita por uma região (ou conjunto de regiões) definida pelo hipercubo formado pelos objetos da classe e, por isso, melhorar o desempenho do classificador.Na etapa de alocação, cada nova observação e afetada a uma classe ou grupo, de acordo com uma função de dissimilaridade que compara a descric~ao de uma classe (uma região ou um conjunto de regiões) com um ponto em Rp. Diferentes conjuntos de dados reais e artificiais são usados nesta avaliacão. Para os dados simulados, a performance do classificador proposto e avaliada pela taxa de erro de classificação, tempo de execuc~ao e memoria utilizada, em comparac~ao com um classificador para dados simbolicos que usa hiper-cubos para descrever as classes. Esta performance e computada no quadro de uma simulação de tipo Monte Carlo. Para os dados reais, a performance do classificador proposto tambem e avaliada pela taxa de erro de classificação, tempo de execução e memoria utilizada em comparação com os algoritmos Part e J48. A performance, para o caso real, e computada usando o 10-Fold repetido. Os resultados mostraram que, em termos da taxa de erro de classificação, o metodo proposto e superior ao metodo em que as regiões são representadas por hiper-cubos, porem o mesmo não ocorre em relação aos algoritmos Part e J48, pois, em algumas situações, o metodo proposto e superior a esses algoritmos