The Role of negative information when learning dense word vectors

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Salle, Alexandre Tadeu
Orientador(a): Villavicencio, Aline
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/234537
Resumo: Pela análise estatística de textos em uma dada linguagem, é possível representar cada palavra contida no vocabulário desta linguagem por meio de um vetor palavra m-dimensional (também conhecido como embedding de palavra) de forma que esse vetor capture infor mações semânticas e sintáticas. Embeddings de palavras podem ser derivados de corpora não-anotados por meio de (1) métodos de contagem onde é efetuada explicitamente a fatoração da matriz de coocorrência e (2) métodos preditivos onde redes neurais são treinadas para predizer distribuições de palavras dado um contexto. Nesta tese, hipotetizamos que essa diferença de desempenho é devida à forma com que métodos baseados em conta gem levam em consideração – ou ignoram completamente – informação negativa: pares palavra-contexto, nos quais o fato de observar um é informativo para a não observação do outro, formulado matematicamente como dois eventos (palavra e contexto) possuindo Pointwise Mutual Information negativa. Validamos nossa hipótese criando um novo mé todo e eficiente método de fatoração de matrizes, o LexVec, altamente escalável, limitado apenas por espaço em disco e núcleos computacionais, que leva em consideração a informação negativa de forma embasada, eliminando a diferença de desempenho em relação a métodos preditivos. Adicionalmente, mostramos que estratégias para quebrar palavras em unidades menores (subpalavras) – uma técnica importante em métodos preditivos para a representação de palavras infrequentes – podem ser adaptadas ao LexVec. Se aproveitando do fato que o LexVec tem acesso à matriz de coocorrência sendo fatorada, efetua mos fatorações que filtram seletivamente o uso ou não de informação negativa, estudando assim o impacto que a informação negativa tem nos embeddings de palavras. Avaliações a nível de palavra e de frases mostram que o uso exclusivo de PMI positivo na fatoração captura fortemente a semântica e sintaxe de palavras, enquanto que o uso exclusivo de PMI negativo captura pouca informação semântica porém uma quantidade surpreendente de informação sintática. Finalmente, efetuamos uma investigação profunda sobre o efeito que o aumento do peso da informação negativa (em relação a informação positiva) tem na geometria dos espaços vetoriais dos embeddings e nas representações de palavras fre quentes e infrequentes. Os resultados revelam duas invariantes geométricas – a norma e a direção vetorial – e melhorias nas representações de palavras raras que são induzidas pelo uso aumentado da informação negativa.