Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: de Santana Pereira, Cristiano
Orientador(a): Darmiton da Cunha Cavalcanti, George
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/1544
Resumo: Seleção de protótipos é uma técnica de aprendizagem de máquina cujo objetivo é a escolha ou produção de instâncias de dados que consigam a melhor representação para os dados do problema realçando as fronteiras de decisão e mantendo a separação entre as classes. A idéia é reduzir a quantidade de dados e ainda assim obter um conjunto de protótipos que minimize o erro de classificação. As estratégias baseadas em protótipos têm sido bastante utilizadas em aplicações reais nos mais diversos domínios obtendo bons resultados. A proposta deste trabalho foi investigar técnicas de seleção de protótipos baseadas em auto-geração e mistura de gaussianas comparando com algumas técnicas clássicas. Como resultado deste estudo, um modelo híbrido combinando estas duas estratégias foi proposto. Este modelo híbrido supera algumas dificuldades destas técnicas quando analisadas isoladamente, pois eles combinam a vantagem da ausência de parâmetros da auto-geração com a maior capacidade de ajuste nas fronteiras de decisão da mistura de gaussianas. O novo modelo foi avaliado com diversos problemas considerados benchmarks da área de aprendizagem de máquina apresentando desempenho superior na maioria deles quando comparado com as técnicas de auto-geração e mistura de gaussianas analisadas. A segunda parte deste trabalho apresenta um estudo da aplicação da nova estratégia híbrida ao problema específico de segmentação de caracteres. Curvas ROC foram utilizadas para avaliar o desempenho e mais uma vez o modelo híbrido se mostrou superior