Combinações de similaridade semântica e frequência de termos para agrupamento de textos

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Soares, Victor Hugo Andrade Soares
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.locus.ufv.br/handle/123456789/11571
Resumo: Um dos desafios ao se agrupar documentos é encontrar uma boa medida de simila- ridade para documentos de textos, que seja capaz de gerar grupos coesos. Algumas medidas são baseadas no clássico modelo bag of words e consideram apenas o vo- cabulário do documento. Com isso, documentos semanticamente similares podem ser atribuídos a diferentes grupos se eles não compartilham o mesmo vocabulário. Por essa razão, medidas de similaridade semântica que usam conhecimento externo, como um corpus, dicionários ou banco de palavras, têm sido propostas na literatura. Neste trabalho, a medida Frequency Google Tri-grams Measures (FGTM) é proposta para identificar similaridade entre documentos baseado nas frequências dos termos nos documentos e no corpus Google n-grams. A comparação entre as frequências de um termo em um dado par de documentos pode quantificar a importância daquele termo para o assunto dos documentos, assumindo que um termo possui maior rele- vância para um documento se ele ocorre mais vezes. Adicionalmente, as frequências dos termos dos documentos no corpus Google n-grams permitem estimar semanti- camente suas similaridades. Adicionalmente, oito variantes de dois algoritmos de agrupamento são aplicadas a vários conjuntos de dados reais, com o objetivo de avaliar experimentalmente a qualidade dos grupos obtidos com a medida proposta e compará-la com outras medidas do estado da arte. Análises de complexidade computacional das medidas comparadas são apresentadas. Os resultados experi- mentais demonstram que a medida proposta melhora significativamente a qualidade dos agrupamentos de documentos, comprovado por testes estatísticos. Também é mostrado que, combinar resultados de agrupamento obtidos com bag of words e medida semântica obtém melhores resultados que adotar uma medida individualmente. Para finalizar, é feito um estudo sobre heurísticas para estimar o número K de gru- pos em agrupamento de textos. Uma versão modificada da heurística G-means é proposta e comparada com heurísticas da literatura.