Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Torres, Lianet Sepúlveda
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30032016-110708/
Resumo: O número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol.