Reconhecimento de dígitos manuscritos: busca de um classificador com máxima taxa de acerto

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Gil, Adriano Mendes
Outros Autores: http://lattes.cnpq.br/5124923772763451
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Faculdade de Tecnologia
Brasil
UFAM
Programa de Pós-graduação em Engenharia Elétrica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede.ufam.edu.br/handle/handle/4428
Resumo: Sistemas de reconhecimento ótico de caracteres, também conhecidos como OCR, permitem identificar e reconhecer caracteres impressos por meio de imagens, uma funcionalidade já bem difundida em scanners, dispositivos móveis, entre outros. Existe uma crescente necessidade de reconhecimento de caracteres manuscritos para uso em várias situações, tais como reconhecimento de valores nominais em cheques de bancos, reconhecimento dos dígitos manuscritos de endereço postal para redirecionamento automatizado de cartas nos correios. Reconhecimento de dígitos manuscritos esbarra na dificuldade de lidar com uma grande variação intraclasse, devido a diferentes estilos de escrita, diferentes graus de inclinação dos caracteres. Este trabalho apresenta três estratégias utilizando três diferentes métodos de reconhecimento de padrões e dois métodos de extração de características. A primeira estratégia utilizou Descritores de Fourier e a técnica de transição de borda para extrair valores representativos do contorno dos caracteres e como camada de classificação utilizou uma rede neural MLP em associação com um conjunto de classificadores SVM para validar e corrigir eventuais erros da rede MLP. A segunda estratégia figurou como base comparativa para as demais estratégias por utilizar um algoritmo clássico de redes neurais convolutivas, LeNet5, e como características utilizou as próprias imagens dos dígitos. A terceira estratégia fez uso de um conjunto de classificadores SVM em uma árvore de decisão desbalanceada para a classificação dos dígitos a partir unicamente de suas imagens. Como resultados dos experimentos, a primeira estratégia provou não ser totalmente efetiva por obter resultados em torno de 80% de taxa de acerto. A segunda estratégia obteve 0,9% de taxa de erro que apesar de ter sido alta, ainda é muito menor se comparada com os melhores resultados obtidos na literatura. A terceira estratégia por sua vez logrou sucesso em reconhecer 100% das amostras de teste da base MNist de dígitos manuscritos, devido ao sucesso do treinamento de cada um dos classificadores SVM, que apesar de utilizarem uma enorme quantidade de vetores de suporte, atingiram individualmente 0% de taxa de erro.