Detalhes bibliográficos
Ano de defesa: |
2014 |
Autor(a) principal: |
MACHADO, Saulo Cadete Santos |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/11838
|
Resumo: |
Documentos antigos podem conter informações importantes para o desenvolvimento de trabalhos atuais. Mapas e plantas baixas históricos podem representar a cultura artística e tecnológica do momento em que foram criados. A qualidade e quantidade de suas informações justificam esforços para mantê-los e garantir a disponibilidade desses documentos. O primeiro passo para alcançar isso é a digitalização. Mas é necessário um processamento automático para que o documento seja pesquisável sem a custosa indexação manual. Ferramentas comuns de reconhecimento automático de caracteres têm dificuldade em reconhecer o texto de imagens de mapas e plantas baixas. Além do desgaste do papel provocado pelo tempo e manuseio, esses documentos possuem muitos elementos gráficos, como desenhos de rios e paredes, que ocupam a maior parte da imagem e podem até colidir com componentes textuais. Esse texto pode ser de diferentes estilos, tamanhos e orientações. Para facilitar a o reconhecimento de texto pelas ferramentas de reconhecimento automático, é importante remover os componentes gráficos da imagem antes de submetê-la ao processo de reconhecimento. Trabalhos recentes sobre segmentação de texto em imagens de mapas e plantas baixas usam regras definidas especialmente para as características das imagens que esperam. Esta dissertação apresenta uma nova abordagem para segmentar texto em imagens de mapas e plantas baixas. O método é divido em três etapas. A primeira é o pré-processamento em que o plano de fundo e alguns componentes gráficos são removidos. A segunda etapa é a de classificação em que são utilizados classificadores baseados em Máquinas de Vetores de Suporte treinados para identificar caracteres e sequências de caracteres. Por fim, é realizado um pós-processamento para evitar erros de classificação e recuperar componentes a partir de sua similaridade com os que foram classificados como texto. Os resultados comprovaram a eficácia do método proposto que alcançou taxas de erro inferiores a 10% para a segmentação de texto em imagens de mapas e plantas baixas. |