Detalhes bibliográficos
Ano de defesa: |
2021 |
Autor(a) principal: |
Salle, Alexandre Tadeu |
Orientador(a): |
Villavicencio, Aline |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/234537
|
Resumo: |
Pela análise estatística de textos em uma dada linguagem, é possível representar cada palavra contida no vocabulário desta linguagem por meio de um vetor palavra m-dimensional (também conhecido como embedding de palavra) de forma que esse vetor capture infor mações semânticas e sintáticas. Embeddings de palavras podem ser derivados de corpora não-anotados por meio de (1) métodos de contagem onde é efetuada explicitamente a fatoração da matriz de coocorrência e (2) métodos preditivos onde redes neurais são treinadas para predizer distribuições de palavras dado um contexto. Nesta tese, hipotetizamos que essa diferença de desempenho é devida à forma com que métodos baseados em conta gem levam em consideração – ou ignoram completamente – informação negativa: pares palavra-contexto, nos quais o fato de observar um é informativo para a não observação do outro, formulado matematicamente como dois eventos (palavra e contexto) possuindo Pointwise Mutual Information negativa. Validamos nossa hipótese criando um novo mé todo e eficiente método de fatoração de matrizes, o LexVec, altamente escalável, limitado apenas por espaço em disco e núcleos computacionais, que leva em consideração a informação negativa de forma embasada, eliminando a diferença de desempenho em relação a métodos preditivos. Adicionalmente, mostramos que estratégias para quebrar palavras em unidades menores (subpalavras) – uma técnica importante em métodos preditivos para a representação de palavras infrequentes – podem ser adaptadas ao LexVec. Se aproveitando do fato que o LexVec tem acesso à matriz de coocorrência sendo fatorada, efetua mos fatorações que filtram seletivamente o uso ou não de informação negativa, estudando assim o impacto que a informação negativa tem nos embeddings de palavras. Avaliações a nível de palavra e de frases mostram que o uso exclusivo de PMI positivo na fatoração captura fortemente a semântica e sintaxe de palavras, enquanto que o uso exclusivo de PMI negativo captura pouca informação semântica porém uma quantidade surpreendente de informação sintática. Finalmente, efetuamos uma investigação profunda sobre o efeito que o aumento do peso da informação negativa (em relação a informação positiva) tem na geometria dos espaços vetoriais dos embeddings e nas representações de palavras fre quentes e infrequentes. Os resultados revelam duas invariantes geométricas – a norma e a direção vetorial – e melhorias nas representações de palavras raras que são induzidas pelo uso aumentado da informação negativa. |