Estratégias para melhoria do desempenho de ferramentas comerciais de reconhecimento óptico de caracteres

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Ferreira Alves, Neide
Orientador(a): Dueire Lins, Rafael
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
OCR
Link de acesso: https://repositorio.ufpe.br/handle/123456789/5603
Resumo: Para avaliar a qualidade do desempenho de ferramentas comerciais de Reconhecimento Óptico de Caracteres (OCR) é necessário adquirir métricas para avaliar o quanto um texto transcrito está próximo do texto original, uma vez que quando uma imagem sofre alterações, por menores que sejam, estas influenciam nas transcrições dos OCR s. Neste trabalho será apresentada uma nova métrica para avaliar transcrições de OCR s: através da aplicação de técnicas de filtragem (brilho, contraste, resolução, rotação, etc.) na imagem original, para que as mudanças mínimas gerem inúmeras imagens, as quais serão submetidas ao OCR e resultarão em textos distintos. Um algoritmo foi desenvolvido para comparar os textos gerados, analisando desde a quantidade de linhas até a igualdade entre os caracteres. Através da análise de maior freqüência entre os caracteres, este algoritmo gera um novo arquivo-texto. Com o uso desta metodologia, o arquivo gerado ficou muito próximo do original com um índice de acerto maior que os arquivos transcritos sem o processo de filtragem