Detalhes bibliográficos
Ano de defesa: |
2021 |
Autor(a) principal: |
Leal, Sidney Evaldo |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/
|
Resumo: |
O INAF (Indicador de Alfabetismo Funcional), criado para mensurar o nível de letramento da população brasileira entre 15 e 64 anos, apontou, em seu relatório de 2018, que somente um em cada dez brasileiros adultos é considerado letrado de forma proficiente. No setor da agropecuária, apenas uma em cada cem pessoas consegue ler e compreender textos sem enfrentar dificuldades. Isso significa que a grande maioria dos produtores rurais pode não se beneficiar das tecnologias publicadas por entidades de pesquisa como a Embrapa (Empresa Brasileira de Pesquisa Agropecuária). Uma solução bastante viável para esse problema é simplificar essas publicações para torná-las mais acessíveis para público alvo. Uma das etapas da simplificação é a tarefa conhecida como predição da complexidade sentencial, responsável por identificar as sentenças mais complexas de um texto, as quais serão alvo das operações de simplificação subsequentes. Para o português brasileiro, antes do presente trabalho, a tarefa de predição de complexidade sentencial ainda não havia sido avaliada e nem havia córpus criados para o aprendizado da tarefa. Outra lacuna observada foi a falta de um córpus com métricas de rastreamento ocular, semelhante aos disponíveis em inglês e utilizados pelos trabalhos internacionais mais recentes sobre predição de complexidade. O objetivo principal desta pesquisa é avaliar métodos de predição de complexidade sentencial para o português brasileiro escrito, a fim de criar um método no estado da arte para a tarefa. Para implementar esse método, projetou-se um ambiente denominado Simpligo, que tem por objetivo auxiliar na simplificação de textos, especialmente os produzidos pela Embrapa para o domínio rural. Para atingir esses objetivos, foram criados dois córpus: um com as sentenças alinhadas do PorSimples (CASELI et al., 2009), e um com métricas de rastreamento ocular e normas de previsibilidade de estudantes do ensino superior. Também disponibilizou-se a versão de 2021 da ferramenta NILC-Metrix, de código-fonte aberto, com 200 métricas linguísticas e psicolinguísticas, as quais são utilizadas nas avaliações dos métodos de predição de complexidade sentencial . Por fim, nesta pesquisa foram avaliadas abordagens de ranking e transfer learning, sendo que esta última, com a adição das métricas de rastreamento ocular, atingiu o estado da arte para a tarefa de predição da complexidade sentencial na língua portuguesa, com 97,5% de acurácia. Este trabalho contribui com novos córpus, métodos e aplicações, voltados à tarefa de avaliação da complexidade sentencial. Além disso, ao serem disponibilizados publicamente todos os recursos desenvolvidos, torna-se possível sua utilização em outras tarefas e investigações. |