Luppar: um sistema de recuperação de informação para coleções fechadas de documentos

Bibliographic Details
Main Author: Silva, Fabiano Tavares da
Publication Date: 2018
Format: Master thesis
Language: por
Source: Repositório Institucional da UECE
Download full: https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=83480
Summary: <div style="">Esta dissertação descreve um sistema de Recuperação de Informação (RI) para coleções de documentos aproximadamente uniformes em tamanho e formato. Exemplos de tais coleções são anais de conferências ou revistas científicas, prontuários médicos, sinopses de notícias, entre outros. Todas as coleções possuem em comum o mesmo domínio. A questão chave em RI é trazer a necessidade de informação do usuário em documentos relevantes. A consulta por ele projetada pode não carregar toda sua intenção do que realmente deseja. Na literatura o uso de diversas técnicas de realimentação implícita de consultas ataca diretamente esse problema. Para este trabalho analisaram-se as técnicas existentes desde o uso de tesauro até propor uma abordagem que usa a teoria de Semântica Distribucional para construir uma Análise de Contexto Local. Utilizou-se quatro coleções com distintos aspectos de domínio, sendo uma das coleções originalmente construída em português e disponibilizada para trabalhos futuros. O trabalho propõe avaliar o sistema de RI como um todo: com a expansão de consulta, a recuperação e o ranqueamento com algoritmos de baseline equivalentes aos métodos clássicos. Como forma de alcançar êxito nas tarefas que compõem o estado da arte de RI foi desenvolvido um motor de busca com interface Web que permite também o uso de técnicas de feedback de relevância. A abordagem é avaliada nas quatro bases de dados em inglês e português e comparada com técnicas semelhantes. Os resultados dos experimentos validaram a abordagem e mostram-se com uma performance competitiva e qualificada para as soluções geradas.&nbsp;</div><div style="">Palavras-chave: Recuperação de informação. Análise de Contexto Local. Semântica Distribucional. Indexação. Expansão de Consultas.</div>
id UECE-0_92b39d7ba1472155cc46e700af738563
oai_identifier_str oai:uece.br:83480
network_acronym_str UECE-0
network_name_str Repositório Institucional da UECE
repository_id_str
spelling Luppar: um sistema de recuperação de informação para coleções fechadas de documentosCiência da computação Desenvolvimento de softwares Recuperação de informação<div style="">Esta dissertação descreve um sistema de Recuperação de Informação (RI) para coleções de documentos aproximadamente uniformes em tamanho e formato. Exemplos de tais coleções são anais de conferências ou revistas científicas, prontuários médicos, sinopses de notícias, entre outros. Todas as coleções possuem em comum o mesmo domínio. A questão chave em RI é trazer a necessidade de informação do usuário em documentos relevantes. A consulta por ele projetada pode não carregar toda sua intenção do que realmente deseja. Na literatura o uso de diversas técnicas de realimentação implícita de consultas ataca diretamente esse problema. Para este trabalho analisaram-se as técnicas existentes desde o uso de tesauro até propor uma abordagem que usa a teoria de Semântica Distribucional para construir uma Análise de Contexto Local. Utilizou-se quatro coleções com distintos aspectos de domínio, sendo uma das coleções originalmente construída em português e disponibilizada para trabalhos futuros. O trabalho propõe avaliar o sistema de RI como um todo: com a expansão de consulta, a recuperação e o ranqueamento com algoritmos de baseline equivalentes aos métodos clássicos. Como forma de alcançar êxito nas tarefas que compõem o estado da arte de RI foi desenvolvido um motor de busca com interface Web que permite também o uso de técnicas de feedback de relevância. A abordagem é avaliada nas quatro bases de dados em inglês e português e comparada com técnicas semelhantes. Os resultados dos experimentos validaram a abordagem e mostram-se com uma performance competitiva e qualificada para as soluções geradas.&nbsp;</div><div style="">Palavras-chave: Recuperação de informação. Análise de Contexto Local. Semântica Distribucional. Indexação. Expansão de Consultas.</div><div style="">This dissertation describes an Information Retrieval (IR) system for collections of documents approximately uniform in size and format. Examples of such collections are annals of conferences or scientific journals, medical records, news synopses, among others. All collections have the same domain in common. The key issue in IR is to bring the need for user information into relevant documents. The query designed may not carry all intention of what really wants. In the literature, the use of several implicit query feedback techniques directly addresses this problem. For this work we will analyze the existing techniques from the use of thesaurus to propose an approach that uses the theory of Distributional Semantics to build a Local Context Analysis. Used four collections with different aspects of domain, one of the collections originally built in Portuguese and made available for future work. The work proposes to evaluate the IR system as a whole: with the query expansion, retrieval and ranking with baseline algorithms equivalent to classical methods. As a way of achieving success in the tasks that make up the state of the art of IR, a search engine with Web interface was developed which also allows the use of relevance feedback techniques. Our approach is evaluated in four databases in English and Portuguese and compared with similar techniques.The results of the experiments were validated and shown with competitive and qualified performance for the solutions generated.&nbsp;</div><div style="">Keywords: Information retrieval. Local Context Analysis. Distributional Semantics. Indexing. Query Automatic Expansion.</div>Universidade Estadual do CearáJOSE EVERARDO BESSA MAIASilva, Fabiano Tavares da2019-05-03T13:38:02Z2018info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=83480info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UECEinstname:Universidade Estadual do Cearáinstacron:UECE2019-05-03T13:38:02Zoai:uece.br:83480Repositório InstitucionalPUBhttps://siduece.uece.br/siduece/api/oai/requestopendoar:2019-05-03T13:38:02Repositório Institucional da UECE - Universidade Estadual do Cearáfalse
dc.title.none.fl_str_mv Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
title Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
spellingShingle Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
Silva, Fabiano Tavares da
Ciência da computação
Desenvolvimento de softwares
Recuperação de informação
title_short Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
title_full Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
title_fullStr Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
title_full_unstemmed Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
title_sort Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
author Silva, Fabiano Tavares da
author_facet Silva, Fabiano Tavares da
author_role author
dc.contributor.none.fl_str_mv JOSE EVERARDO BESSA MAIA
dc.contributor.author.fl_str_mv Silva, Fabiano Tavares da
dc.subject.por.fl_str_mv Ciência da computação
Desenvolvimento de softwares
Recuperação de informação
topic Ciência da computação
Desenvolvimento de softwares
Recuperação de informação
description <div style="">Esta dissertação descreve um sistema de Recuperação de Informação (RI) para coleções de documentos aproximadamente uniformes em tamanho e formato. Exemplos de tais coleções são anais de conferências ou revistas científicas, prontuários médicos, sinopses de notícias, entre outros. Todas as coleções possuem em comum o mesmo domínio. A questão chave em RI é trazer a necessidade de informação do usuário em documentos relevantes. A consulta por ele projetada pode não carregar toda sua intenção do que realmente deseja. Na literatura o uso de diversas técnicas de realimentação implícita de consultas ataca diretamente esse problema. Para este trabalho analisaram-se as técnicas existentes desde o uso de tesauro até propor uma abordagem que usa a teoria de Semântica Distribucional para construir uma Análise de Contexto Local. Utilizou-se quatro coleções com distintos aspectos de domínio, sendo uma das coleções originalmente construída em português e disponibilizada para trabalhos futuros. O trabalho propõe avaliar o sistema de RI como um todo: com a expansão de consulta, a recuperação e o ranqueamento com algoritmos de baseline equivalentes aos métodos clássicos. Como forma de alcançar êxito nas tarefas que compõem o estado da arte de RI foi desenvolvido um motor de busca com interface Web que permite também o uso de técnicas de feedback de relevância. A abordagem é avaliada nas quatro bases de dados em inglês e português e comparada com técnicas semelhantes. Os resultados dos experimentos validaram a abordagem e mostram-se com uma performance competitiva e qualificada para as soluções geradas.&nbsp;</div><div style="">Palavras-chave: Recuperação de informação. Análise de Contexto Local. Semântica Distribucional. Indexação. Expansão de Consultas.</div>
publishDate 2018
dc.date.none.fl_str_mv 2018
2019-05-03T13:38:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=83480
url https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=83480
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual do Ceará
publisher.none.fl_str_mv Universidade Estadual do Ceará
dc.source.none.fl_str_mv reponame:Repositório Institucional da UECE
instname:Universidade Estadual do Ceará
instacron:UECE
instname_str Universidade Estadual do Ceará
instacron_str UECE
institution UECE
reponame_str Repositório Institucional da UECE
collection Repositório Institucional da UECE
repository.name.fl_str_mv Repositório Institucional da UECE - Universidade Estadual do Ceará
repository.mail.fl_str_mv
_version_ 1828295895447240704