A general framework to expand short text for topic modeling
Ano de defesa: | 2017 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal de Minas Gerais
Brasil ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO Programa de Pós-Graduação em Ciência da Computação UFMG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://hdl.handle.net/1843/43917 |
Resumo: | Textos curtos são frequentemente encontrados na Web, e incluem mensagens publicadas em mídias sociais, mensagens de status, comentários de blogs, etc. Descobrir os tópicos ou assuntos presentes neste tipo de mensagens é crucial para uma ampla gama de aplicações, como análise de contexto e caracterização de usuários. No entanto, extrair tópicos de textos curtos é desafiador. Isto porque existe uma dependência dos métodos convencionais, como Latent Dirichlet Allocation (LDA), da co-ocorrência de palavras, que em textos curtos são raras. Dados os desafios dessa tarefa, esta dissertação propõe um arcabouço para modelagem de tópicos em textos curtos que trabalha expandindo os documentos originais, transformando-os em pseudo-documentos maiores e com mais informações. No arcabouço proposto, os documentos são decompostos em componentes (palavras, bigramas ou n-gramas) definidos sobre um espaço métrico, capaz de fornecer informações sobre a similaridade entre esses componentes. Apresentamos então duas especializações do nosso arcabouço que, apesar de simples, são eficazes e eficientes para a geração de pseudo-documentos a partir dos documentos de texto curto originais. Enquanto o primeiro método, CoFE (Co-Frequency Expansion), considera a co-ocorrência de palavras para definir o espaço métrico, o segundo, DREx (Distributed Representation-based Expansion), baseia-se em representações vetoriais de palavras. Os pseudo-documentos gerados podem ser dados como entrada para qualquer algoritmo de modelagem de tópicos, o que torna nossa abordagem ainda mais genérica e flexível. Comparamos os resultados das estratégias propostas com cinco algoritmos estado-da-arte que seguem duas estretégias: geram peduso-documentos ou modificam os métodos convencionais de extração de tópicos. Os métodos foram avaliados em sete conjuntos de dados usando a métrica de qualidade de tópico Normalized Pointwise Mutual Information (NPMI) e também no contexto de classificação de documentos. Resultados experimentais mostram que o DREx com a representação vetorial gerada pelo método Glove supera os métodos existentes, obtendo valores mais elevados de NPMI e melhores valores de macro-F1, com ganhos de até 15% neste último. |