Systemic-Functional modeling of text complexity in Brazilian Portuguese
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal de Minas Gerais
Brasil FALE - FACULDADE DE LETRAS Programa de Pós-Graduação em Estudos Linguísticos UFMG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://hdl.handle.net/1843/39311 https://orcid.org/0000-0002-7433-7904 |
Resumo: | O estudo da complexidade textual é um passo fundamental para a modelagem de tarefas de simplificação textual, uma vez que simplificação se configura como uma redução na complexidade do texto. Nas últimas duas décadas, estudos em Processamento de Língua Natural (PLN) têm procurado identificar estratégias eficientes de simplificação. Embora algumas tentativas de abordar esta questão com a construção de modelos computacionais baseados em teorias da linguagem tenham fornecido insights potencialmente valiosos, estes ainda são insuficientes para lidar efetivamente com a tarefa. Com o objetivo de preencher esta lacuna e com base em uma teoria abrangente da linguagem -- a Linguística Funcional Sistêmica (LSF) (Halliday & Matthiessen, 2014) --, esta tese explora a complexidade da linguagem com o objetivo de obter evidências que possam informar as tarefas de simplificação textual visando a produção de textos mais acessíveis em português brasileiro. Para tanto, foi compilado SIM-Pt (Simplificado Português Brasileiro), um corpus paralelo monolingüe de segmentos textuais alinhados nos domínios da física, biologia e psicologia. Os segmentos foram organizados em dois conjuntos de dados associados: (1) dois conjuntos de segmentos extraídos de textos científicos encontrados na Web, compostos, respectivamente, de segmentos mais simples e mais complexos; e (2) dois conjuntos de segmentos criados manualmente com base nos segmentos extraídos de textos, mantendo-se níveis distintos de complexidade. Cada conjunto contém aproximadamente 200 segmentos de texto. As orações em cada segmento foram analisadas manualmente de acordo com seus significados Ideacionais, Interpessoais e Textuais, e padrões na lexicogramática foram obtidos com base em frequências sistêmicas e estruturais que pudessem fornecer variáveis estreitamente relacionadas a diferentes níveis de metaforicidade gramatical. Por meio do mapeamento da complexidade textual nos estratos da lexicogramática, semântica e contexto, foi proposta uma relação entre complexidade textual e metáfora gramatical experiencial. Os resultados mostram que, do ponto de vista experiencial, em média maior grau de metáfora gramatical experiencial está correlacionado com maior complexidade textual. As principais evidências que sustentam esta afirmação sob a perspectiva da lexicogramática foram a frequência mais elevada de orações relacionais e existenciais, juntamente com orações na voz média e orações incrustadas, e a frequência mais elevada de mudanças de classe de palavra (especialmente nominalizações) e mudanças na escala de ordens (Ravelli, 1999). Os resultados desta tese contribuem para os estudos da simplificação textual no português brasileiro, tanto no campo da linguística aplicada como no campo da PNL. |