Algoritmos e arquiteturas para processamento de documentos digitalizados monocromáticos

Detalhes bibliográficos
Ano de defesa: 2006
Autor(a) principal: Tenório Ávila, Bruno
Orientador(a): Dueire Lins, Rafael
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/5453
Resumo: Em projetos de digitalização de alto volume de documentos, a imagem dos documentos digitalizados pode ser gerada com vários defeitos acarretando dificuldades desde a sua leitura até sua transcrição automática. Além disso, o alto volume de documentos a serem processados gera a necessidade de automatização do processo de digitalização e à procura por melhores soluções para esses problemas. Esta dissertação aborda os seguintes problemas encontrados nos documentos digitalizados monocromáticos: detecção e remoção de borda preta e; detecção e correção da orientação e enviesamento. Um novo filtro para remoção de borda preta foi desenvolvido, testado em 21 mil documentos e comparado com várias ferramentas comerciais. Um novo algoritmo de detecção de orientação e enviesamento com capacidade de estimar a rotação em qualquer ângulo com uma precisão de 0,1º foi desenvolvido e comparado com outro método da literatura. Um segundo algoritmo de detecção de enviesamento foi proposto com o objetivo de aumentar o desempenho do processamento. Observaram-se três problemas na correção de rotação do algoritmo clássico: pontos brancos, contorno acidentado e desconexão de parte dos objetos. Um algoritmo de correção de rotação foi proposto com capacidade de corrigir os três problemas. Um método quantitativo para medir a degradaçãodos algoritmos de correção de rotação foi introduzido e utilizado para comparar o novo algoritmo com outros da literatura. Além dos filtros, duas arquiteturas para processamento de documentos digitalizados monocromáticos foram estudadas: seqüencial e cluster. Um ambiente visual, intitulado BigBatch, foi construído com ambas as arquiteturas. A arquitetura em grid foi apenas especulada