Word embedding-based representations for short text

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Marcelo Rodrigo de Souza Pita
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/38885
https://orcid.org/0000-0001-7582-4651
Resumo: Textos curtos estão em todo lugar na Web, incluindo mídias sociais, sites de perguntas e respostas (Q&A), textos de propagandas e um número cada vez maior de outras aplicações. Eles são caracterizados pelo escasso contexto de palavras e extenso vocabulário. Estas características tornam a descoberta de conhecimento em texto curto desafiadora, motivando o desenvolvimento de novos métodos. Técnicas de mineração de texto são dependentes da forma como textos são representados. A necessidade de entradas de tamanho fixo para a maioria dos algortimos de aprendizado de máquina exige representações vetoriais, tais como as representações clássicas TF e TF-IDF. Contudo, estas representações são esparsas e podem induzir a "maldição da dimensionalidade". No nível de palavras, modelos de vetores de palavras, tais como Skip-Gram e GloVe, produzem embeddings que são sensíveis a semântica e consistentes com álgebra de vetores. Este trabalho apresenta contribuições em representação de texto curto para classificação de documentos e modelagem de tópicos para texto curto. Na primeira linha, uma investação sobre combinações apropriadas de vetores de palavras para geração de vetores de documentos é realizada. Estratégias variam de simples combinações até o método PSO-WAWV, baseado na meta-heurística PSO. Resultados em classificação de documentos são competitivos com TF-IDF e revelam ganhos significativos sobre outros métodos. Na segunda linha de pesquisa, um arcabouço que cria pseudodocumentos para modelagem de tópicos é proposto, além de duas implementações: (1) CoFE, baseado na co-ocorrência de palavras; e (2) DREx, que usa vetores de palavras. Também são propostos o modelo Vec2Graph, que induz um grafo de similaridade de vetores de palavras, e o algoritmo VGTM, um modelo de tópicos probabilístico para texto curto que funciona sobre Vec2Graph. Resultados experimentais mostram ganhos significativos em NPMI e F1-score quando comparados com métodos estado-da-arte.