O uso de recursos linguísticos para mensurar a semelhança semântica entre frases curtas através de uma abordagem híbrida

Silva, Allan de Barcelos

O uso de recursos linguísticos para mensurar a semelhança semântica entre frases curtas através de uma abordagem híbrida

Detalhes bibliográficos
Ano de defesa:	2017
Autor(a) principal:	Silva, Allan de Barcelos
Orientador(a):	Rigo, Sandro José
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação:	Programa de Pós-Graduação em Computação Aplicada
Departamento:	Escola Politécnica
País:	Brasil
Palavras-chave em Português:	Processamento de linguagem natural Similaridade semântica textual Linguística Aprendizagem de máquina
Palavras-chave em Inglês:	Support vector machines Word embeddings Principal component analysis Natural language processing Semantic textual similarity Linguistic Machine learning
Área do conhecimento CNPq:	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Link de acesso:	http://www.repositorio.jesuita.org.br/handle/UNISINOS/6974
Resumo:	Na área de Processamento de Linguagem Natural, a avaliação da similaridade semântica textual é considerada como um elemento importante para a construção de recursos em diversas frentes de trabalho, tais como a recuperação de informações, a classificação de textos, o agrupamento de documentos, as aplicações de tradução, a interação através de diálogos, entre outras. A literatura da área descreve aplicações e técnicas voltadas, em grande parte, para a língua inglesa. Além disso, observa-se o uso prioritário de recursos probabilísticos, enquanto os aspectos linguísticos são utilizados de forma incipiente. Trabalhos na área destacam que a linguística possui um papel fundamental na avaliação de similaridade semântica textual, justamente por ampliar o potencial dos métodos exclusivamente probabilísticos e evitar algumas de suas falhas, que em boa medida são resultado da falta de tratamento mais aprofundado de aspectos da língua. Este contexto é potencializado no tratamento de frases curtas, que consistem no maior campo de utilização das técnicas de similaridade semântica textual, pois este tipo de sentença é composto por um conjunto reduzido de informações, diminuindo assim a capacidade de tratamento probabilístico eficiente. Logo, considera-se vital a identificação e aplicação de recursos a partir do estudo mais aprofundado da língua para melhor compreensão dos aspectos que definem a similaridade entre sentenças. O presente trabalho apresenta uma abordagem para avaliação da similaridade semântica textual em frases curtas no idioma português brasileiro. O principal diferencial apresentado é o uso de uma abordagem híbrida, na qual tanto os recursos de representação distribuída como os aspectos léxicos e linguísticos são utilizados. Para a consolidação do estudo, foi definida uma metodologia que permite a análise de diversas combinações de recursos, possibilitando a avaliação dos ganhos que são introduzidos com a ampliação de aspectos linguísticos e também através de sua combinação com o conhecimento gerado por outras técnicas. A abordagem proposta foi avaliada com relação a conjuntos de dados conhecidos na literatura (evento PROPOR 2016) e obteve bons resultados.

O uso de recursos linguísticos para mensurar a semelhança semântica entre frases curtas através de uma abordagem híbrida

Registros relacionados