Modelo para recuperação de informação em repositórios institucionais utilizando a técnica de sumarização a partir da seleção de atributos do Cassiopeia

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Cruz, Luanna Azevedo
Orientador(a): Guelpeli, Marcus Vinicius Carvalho
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: UFVJM
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://acervo.ufvjm.edu.br/items/878448a1-815e-4b52-92a6-9b10d5f5bdc0
Resumo: Um grande repositório de cultura e conhecimento vem sendo formado a partir de documentos digitais criados por usuários das mais diversas áreas. No contexto educacional, textos acadêmicos compõem bases textuais, como os repositórios institucionais, que são fonte de informação e auxiliam no processo de ensino e aprendizagem. No entanto, assimilar e lidar com o elevado volume de informação disponível, localizando-as de forma rápida e precisa, passou a ser um desafio. Neste sentido, a área de Recuperação de Informação atua com o propósito de detectar, dentre uma coleção de documentos, os que satisfazem às necessidades do usuário. Porém, problemas como quantidade excessiva de documentos retornados e falta de relevância e precisão dos resultados apresentados dificultam o processo de recuperação de informação. Técnicas de Mineração de Textos podem auxiliar nesse processo, por meio da extração de dados, descoberta de padrões, associações e regras, realização de resumo, e análises em documentos de texto. Dessa forma, o objetivo desta pesquisa é analisar se a aplicação da técnica de sumarização, a partir do método de seleção de atributos (palavras) do modelo Cassiopeia (implementado no sumarizador PragmaSUM), num corpus de textos acadêmicos, auxilia na recuperação de informação, diminuindo a sobrecarga de informação e melhorando a precisão dos resultados retornados ao usuário. A seleção de atributos do modelo consiste em um método de redução da alta dimensionalidade e dados esparsos. A pesquisa foi desenvolvida em seis etapas que compreenderam as seguintes ações: levantamento bibliográfico; preparação do corpus e sumarização dos textos acadêmicos; implementação de um buscador; execução da recuperação de informação padrão e com a seleção de atributos do modelo Cassiopeia; avaliação da recuperação de informação por intermédio das métricas precision, recall, e F-measure; e, por fim, análise dos dados a partir dos testes estatísticos ANOVA de Friedman e coeficiente de concordância de Kendall. Os resultados obtidos mostraram que a sumarização, efetuada principalmente com altas taxas de compressão (80% e 90%), diminuiu a sobrecarga de informação e aumentou a precisão dos resultados apresentados ao usuário, permitindo qualidade na recuperação de informação em textos acadêmicos. Além disso, simplificou o processo de indexação, atenuou a alta dimensionalidade e promoveu maior agilidade na recuperação de informação.