Um método para incrementar a extração automática de palavras-chave de textos baseado na expansão do conjunto de treinamento com termos candidatos inferidos a partir de modelos de conhecimento

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Silveira, Francisca Raquel de Vasconcelos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/114868
Resumo: Sistemas de extração de palavras-chave tradicionalmente usam algoritmos de classificação e não consideram o fato que parte das palavras-chave podem não ser encontradas no texto, reduzindo a acurácia desses algoritmos. Neste trabalho, propõe-se melhorar a acurácia desses sistemas, expandindo o conjunto de treinamento usado pelos algoritmos de classificação com termos que não estão no texto (termos não-texto) inferidos de modelos de conhecimento, tais como bases de conhecimento e semântica distributiva. A suposição básica da tese é que termos não-texto têm um relacionamento semântico com os termos que estão no texto. Para capturar e representar esse relacionamento, foram definidas três novas heurísticas para caracterizar a relevância dos termos não-texto a serem palavras-chave. A primeira heurística tem o objetivo de capturar se o relacionamento semântico de um termo não-texto (em relação aos outros termos no texto) é maior que o relacionamento semântico do termo do texto que o inferiu. A intuição é que termos que são mais relacionados semanticamente a outros termos no documento são mais prováveis para representar o texto. A segunda heurística refere-se ao poder de discriminação do termo não-texto. A intuição é que bons candidatos para ser uma palavra-chave são aqueles que são deduzidos de vários termos do texto em um documento específico e que não são frequentemente deduzidos em outros documentos. A outra heurística representa o poder descritivo de um candidato não-texto. Argumenta-se que palavras-chave não-texto devem ter um forte relacionamento semântico com o texto e que o poder desse relacionamento semântico pode ser medido em uma maneira similar como métricas populares, tal como TFxIDF. O método proposto neste trabalho foi comparado com sistemas de estado-da-arte usando sete corpora e os resultados exibem que o método proposto tem melhorado significativamente a extração automática de palavras-chave em documentos desses corpora, lidando com a limitação de extrair palavras-chave ausentes do texto. Palavras-chave: Extração de palavras-chave. Palavras-chave ausentes do texto. Dedução de palavras-chave. Modelos de conhecimento.