Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
Cruz, Luanna Azevedo |
Orientador(a): |
Guelpeli, Marcus Vinicius Carvalho |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
UFVJM
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Link de acesso: |
https://acervo.ufvjm.edu.br/items/878448a1-815e-4b52-92a6-9b10d5f5bdc0
|
Resumo: |
Um grande repositório de cultura e conhecimento vem sendo formado a partir de documentos digitais criados por usuários das mais diversas áreas. No contexto educacional, textos acadêmicos compõem bases textuais, como os repositórios institucionais, que são fonte de informação e auxiliam no processo de ensino e aprendizagem. No entanto, assimilar e lidar com o elevado volume de informação disponível, localizando-as de forma rápida e precisa, passou a ser um desafio. Neste sentido, a área de Recuperação de Informação atua com o propósito de detectar, dentre uma coleção de documentos, os que satisfazem às necessidades do usuário. Porém, problemas como quantidade excessiva de documentos retornados e falta de relevância e precisão dos resultados apresentados dificultam o processo de recuperação de informação. Técnicas de Mineração de Textos podem auxiliar nesse processo, por meio da extração de dados, descoberta de padrões, associações e regras, realização de resumo, e análises em documentos de texto. Dessa forma, o objetivo desta pesquisa é analisar se a aplicação da técnica de sumarização, a partir do método de seleção de atributos (palavras) do modelo Cassiopeia (implementado no sumarizador PragmaSUM), num corpus de textos acadêmicos, auxilia na recuperação de informação, diminuindo a sobrecarga de informação e melhorando a precisão dos resultados retornados ao usuário. A seleção de atributos do modelo consiste em um método de redução da alta dimensionalidade e dados esparsos. A pesquisa foi desenvolvida em seis etapas que compreenderam as seguintes ações: levantamento bibliográfico; preparação do corpus e sumarização dos textos acadêmicos; implementação de um buscador; execução da recuperação de informação padrão e com a seleção de atributos do modelo Cassiopeia; avaliação da recuperação de informação por intermédio das métricas precision, recall, e F-measure; e, por fim, análise dos dados a partir dos testes estatísticos ANOVA de Friedman e coeficiente de concordância de Kendall. Os resultados obtidos mostraram que a sumarização, efetuada principalmente com altas taxas de compressão (80% e 90%), diminuiu a sobrecarga de informação e aumentou a precisão dos resultados apresentados ao usuário, permitindo qualidade na recuperação de informação em textos acadêmicos. Além disso, simplificou o processo de indexação, atenuou a alta dimensionalidade e promoveu maior agilidade na recuperação de informação. |