Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais
Ano de defesa: | 2024 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Viçosa
Ciência da Computação |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://locus.ufv.br/handle/123456789/32586 https://doi.org/10.47328/ufvbbt.2024.310 |
Resumo: | Ao mesmo tempo em que as plataformas de mídias sociais facilitaram as interações e ajudaram a democratizar o acesso à informação, estas também são exploradas para disseminação de desinformação em diferentes contextos, como saúde, política, dentre outros. Fatores como: a velocidade de disseminação, a demora na verificação de fatos e a complexidade de análise de mídias como imagens e vídeos, fazem com que o combate a essa prática seja cada vez mais desafiador. Esforços anteriores revelaram que as imagens representam o tipo de mídia mais explorado nas plataformas sociais. Neste contexto, uma abordagem para combater a desinformação em imagens é extrair o conteúdo textual para processamento posterior. Assim, o objetivo deste trabalho é investigar o desempenho de ferramentas de OCR na recuperação de informações textuais em Português do Brasil, a fim de contribuir para o desenvolvimento de sistemas de moderação e combate à desinformação cada vez mais eficientes. Este estudo apresenta uma metodologia para avaliar ferramentas de OCR considerando variações em 7 aspectos de imagem que são comumente encontrados nos recursos de edição das plataformas de mídias sociais, a saber: o ângulo de rotação do texto, as dimensões da imagem, a cor e o estilo da fonte, o tamanho da fonte, a presença de sombras no texto e o plano de fundo. Nossos resultados revelam a influência dos aspectos da imagem analisada na precisão do OCR, destacando o plano de fundo, o ângulo de rotação do texto e o estilo da fonte como os aspectos que produzem o maior impacto. Além disso, relatamos uma variação considerável entre os sistemas de OCR avaliados em termos de desempenho. Nossos experimentos demonstram que, dentre as ferramentas avaliadas, o Microsoft OCR apresenta os melhores resultados de CER em todos os aspectos analisados com valores médios variando entre 0,14% e 0,71%. Já os piores resultados são do Easy OCR, com valores médios de CER variando entre 1,5% e 57,8%, e do PyTesseract, com valores variando entre 3,9% e 35,6%. Por fim, além de realizarmos um experimento para avaliar como o desempenho das ferramentas de OCR impactam na detecção de desinformação, disponibilizamos um conjunto de imagens com desinformação em Português do Brasil que poderá ser utilizado pela comunidade acadêmica para diferentes fins. Palavras-chave: Reconhecimento Óptico de Caracteres. Desinformação. Dados sintéticos. |