Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Oliveira, Lucas Lima de |
Orientador(a): |
Moreira, Viviane Pereira |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/236344
|
Resumo: |
O Formato de Documento Portátil (PDF) se tornou um dos padrões mais usados para armazenamento e compartilhamento de documentos. Artigos científicos, propostas de projetos, contratos, livros e documentos jurídicos são normalmente armazenados e distri buídos como arquivos PDF. Embora a extração do conteúdo textual de documentos PDF originados de forma digital possa ser feita com alta precisão, se o documento consistir em uma imagem digitalizada, o Reconhecimento Óptico de Caracteres (OCR) é normal mente necessário. A saída do OCR pode ser ruidosa, especialmente quando a qualidade da imagem digitalizada é ruim – muito comum em documentos históricos –, o que por sua vez pode impactar tarefas posteriores, como Recuperação de Informação (IR). O pós processamento de documentos OCR é uma alternativa para corrigir erros de extração e, intuitivamente, melhorar os resultados em tarefas posteriores. Este trabalho avalia o im pacto da extração e correção de OCR em IR. Comparamos diferentes métodos de extração e correção em textos extraídos por OCR de documentos escaneados reais. Para avaliar as tarefas de IR, o paradigma padrão requer uma coleção de testes com documentos, consul tas e julgamentos de relevância. A criação de coleções de teste requer um esforço humano significativo, principalmente na realização dos julgamentos de relevância. Como resul tado, ainda existem muitos domínios e idiomas que, até hoje, carecem de um ambiente de teste para avaliação adequada. O português é um exemplo de uma importante língua mundial que tem sido negligenciada em termos de pesquisas de IR - a única coleção de testes disponível é composta por notícias de 1994 e uma centena de consultas. Com o objetivo de preencher essa lacuna, desenvolvemos a REGIS (Retrieval Evaluation for Ge oscientific Information Systems), uma coleção de testes para o domínio geocientífico em português. REGIS contém 20 mil documentos e 34 tópicos de consulta, juntamente com julgamentos de relevância. Nossos resultados dos experimentos utilizando a REGIS mos traram que, em média, para o conjunto completo de tópicos de consulta, as métricas de qualidade de recuperação variam muito pouco. No entanto, uma análise mais detalhada revelou que a maioria dos tópicos de consulta melhorou com a correção de erros. |