Linguística e computação em diálogo para análise de textos e criação de atividades de leitura em língua inglesa

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Moreira Filho, José Lopes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/8/8139/tde-16092015-172528/
Resumo: A coleta e a exploração de corpora para a criação de atividades é um tema cada vez mais recorrente, uma vez que a prática visa a garantir materiais de ensino que privilegiam a língua em uso. A disponibilidade de instrumentação computacional para análise de corpora é enorme, assim como o seu potencial para o ensino de línguas. Apesar dos benefícios, o uso desses recursos ainda não é uma realidade para a maioria dos professores, principalmente fora do contexto acadêmico. Nesta tese, desenvolve-se um sistema de análise de textos e corpora e de criação automática de atividades de leitura e ensino de léxico-gramática em língua inglesa, com base na investigação das possibilidades de construção e exploração de corpora da Linguística de Corpus em diálogo com métodos e ferramentas de trabalho das áreas do Processamento de Línguas Naturais e Aprendizado de Máquina. Os objetivos da pesquisa estão relacionados a um estudo inicial que teve como produto final um software desktop para a preparação semiautomática de atividades de leitura em inglês, segundo o conceito de atividade-padrão, para facilitar a produção de materiais baseados em corpora. A proposta da tese concentra-se na automatização das análises linguísticas para a criação automática de atividades de ensino. Para tanto, a linguagem de programação Python, com a biblioteca Natural Language Toolkit (NLTK), foi utilizada na construção de módulos de análise de texto e corpora. Os principais corpora foram: a. o corpus de referência British National Corpus (BNC); b. o corpus de referência Floresta Sinta(c)tica do NLTK; c. o corpus de referência MacMorpho do NLTK; d. um corpus de estudo/treinamento com 135 textos de anúncios de emprego em inglês da Internet; e. um corpus de estudo/treinamento com 771 textos de divulgação científica das revistas eletrônicas Scientific American e NewScientist. A partir das análises automáticas programadas, foram criados modelos em XML, que extraem informações de texto e corpus para a criação de atividades. Uma interface gráfica foi desenhada para implementação do sistema, por meio das linguagens PHP, JavaScript, HTML e CSS, e disponibilizada online para a avaliação de possíveis usuários finais. A análise das avaliações mostrou-se positiva tanto em relação a aspectos da interface quanto a informações geradas pelo sistema. Os resultados obtidos no trabalho são significativos, pois sugerem que o sistema proposto, que permite a automatização de análises de texto e corpora para a criação automática de atividades didáticas de leitura e ensino de léxico-gramática em língua inglesa, apresenta um diferencial em relação a ferramentas disponíveis para análise de textos: fornece análises mais apuradas para a tarefa de elaboração de atividades didáticas, quando comparado, por exemplo, a programas como concordanciadores. Dentre as contribuições do trabalho, destacam-se o percurso do desenvolvimento do sistema como parte integrante da pesquisa, o diálogo entre as Humanidades a Linguística e a Língua Inglesa e as Ciências Exatas a Computação, com o Processamento de Línguas Naturais e o Aprendizado de Máquina , e a automatização de tarefas de análise de textos para fins de criação de materiais pedagógicos para o ensino de línguas.