Indução gramatical automática para o português

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Silva, Diego Pedro Gonçalves da
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/
Resumo: A indução gramatical automática é uma tarefa que busca extrair estruturas sintáticas de sentença não anotada. Esta tarefa é importante para diversas aplicações não apenas para Processamento de Língua Natural, mas também para Bioinformática, Linguística, Engenharia de Software e Psicolinguística, para citar algumas. Há uma grande limitação de trabalhos para o português, pois a maioria são direcionados para a língua inglesa. Os trabalhos existentes para outras línguas são construídos, geralmente, para tentar generalizar para outras línguas, que naturalmente podem apresentar estruturas linguísticas distintas. Com a importância da língua portuguesa, uma das 10 mais faladas no planeta, assim como a falta de modelos precisos para a língua portuguesa, faz-se necessário uma investigação sobre a possibilidade de preencher esta lacuna. O objetivo deste trabalho foi estudar os métodos em Indução Gramatical sobre a perspectiva da língua portuguesa e propor novos métodos para o Português usando texto puro (sem nenhum tipo de anotação feita por humanos, ou automatizada não supervisionada). Para atingir estes objetivos, foi realizada uma exaustiva revisão da literatura. Em seguida foram realizados estudos a fim de analisar a viabilidade de determinadas abordagens, como a Informação Mútua, na indução gramatical para o português. Os resultados alcançados neste estudo evidenciam a viabilidade de recuperar estruturas gramaticais, inclusive certos tipos de relações sintáticas, como sujeito e objeto, com uma certa confiança, 74.9% para objetos e 50.1% para sujeitos. Além disso, notou-se que a utilização de características intrínsecas da língua, como o comprimento das palavras, contribuem para um melhor desempenho do método.