Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Vieira, Tiago Kramer |
Orientador(a): |
Jung, Claudio Rosito |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/256584
|
Resumo: |
Modelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível. |