Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Cabezudo, Marco Antonio Sobrevilla |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/
|
Resumo: |
Abstract Meaning Representation é um formalismo semântico que codifica o significado de uma sentença como um grafo. Essa representação inclui várias informações semânticas, tais como os papéis semânticos, correferência, entidades nomeadas, entre outras. AMR tornou-se um tópico de pesquisa relevante nas áreas de representação semântica, análise semântica e geração de linguagem natural. Seu sucesso se baseia em sua tentativa de abstrair as idiossincrasias sintáticas e seu amplo uso de recursos linguísticos maduros, como o PropBank. A tarefa de geração de texto a partir de AMR (AMR-para-Texto) visa produzir um texto que transmita o significado codificado por um grafo AMR. Para o inglês, isso tem sido amplamente estudado, e várias abordagens como a tradução automática estatística, transdutores grafo/árvore a texto e, recentemente, modelos neurais têm sido explorados. Além disso, o corpus usado contém milhares de instâncias, possibilitando explorar diversos métodos e atingir altos desempenhos. Por outro lado, obter corpora de alta qualidade limita a pesquisa em outras línguas (pois geralmente envolve uma tarefa de anotação difícil e cara), resultando em corpora menores e na incapacidade de replicação de métodos e/ou obtenção de resultados semelhantes aos obtidos no Inglês. Para o Português Brasileiro, existe um corpus AMR contendo frases anotadas do livro O Pequeno Príncipe e vários analisadores AMR desenvolvidos. Nesse contexto, esta tese teve como objetivo investigar métodos de geração AMR-para-Texto para o Português Brasileiro, contribuindo para o desenvolvimento dessa linha de pesquisa. Dessa forma, primeiro adaptamos as diretrizes de AMR para o Português Brasileiro, construímos um novo corpus de AMR multigênero e fizemos uma análise de casos difíceis nos gênero de notícias jornalísticas e comentários opinativos. Além disso, adaptamos alguns métodos de geração AMR-para-Texto e os testamos em nosso corpus. Posteriormente, exploramos diversas estratégias para superar o tamanho limitado do corpus. Em particular, exploramos estratégias de língua cruzada usando o corpus AMR em Inglês e estratégias aprimoradas que visavam usar recursos (como modelos pré-treinados) e tarefas (como geração de paráfrases) para melhorar o desempenho dos mesmos. Entre os resultados, avaliamos as potencialidades e limitações de todas as estratégias, com especial enfoque para aquelas úteis para línguas com poucos recursos, sendo que as abordagens de língua cruzada produziram os melhores resultados. As contribuições desta tese também incluem os vários recursos AMR disponibilizados. |