Finding idiomaticity in word representations

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Vieira, Tiago Kramer
Orientador(a): Jung, Claudio Rosito
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/256584
Resumo: Modelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível.