Luppar: um sistema de recuperação de informação para coleções fechadas de documentos
Main Author: | |
---|---|
Publication Date: | 2018 |
Format: | Master thesis |
Language: | por |
Source: | Repositório Institucional da UECE |
Download full: | https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=83480 |
Summary: | <div style="">Esta dissertação descreve um sistema de Recuperação de Informação (RI) para coleções de documentos aproximadamente uniformes em tamanho e formato. Exemplos de tais coleções são anais de conferências ou revistas científicas, prontuários médicos, sinopses de notícias, entre outros. Todas as coleções possuem em comum o mesmo domínio. A questão chave em RI é trazer a necessidade de informação do usuário em documentos relevantes. A consulta por ele projetada pode não carregar toda sua intenção do que realmente deseja. Na literatura o uso de diversas técnicas de realimentação implícita de consultas ataca diretamente esse problema. Para este trabalho analisaram-se as técnicas existentes desde o uso de tesauro até propor uma abordagem que usa a teoria de Semântica Distribucional para construir uma Análise de Contexto Local. Utilizou-se quatro coleções com distintos aspectos de domínio, sendo uma das coleções originalmente construída em português e disponibilizada para trabalhos futuros. O trabalho propõe avaliar o sistema de RI como um todo: com a expansão de consulta, a recuperação e o ranqueamento com algoritmos de baseline equivalentes aos métodos clássicos. Como forma de alcançar êxito nas tarefas que compõem o estado da arte de RI foi desenvolvido um motor de busca com interface Web que permite também o uso de técnicas de feedback de relevância. A abordagem é avaliada nas quatro bases de dados em inglês e português e comparada com técnicas semelhantes. Os resultados dos experimentos validaram a abordagem e mostram-se com uma performance competitiva e qualificada para as soluções geradas. </div><div style="">Palavras-chave: Recuperação de informação. Análise de Contexto Local. Semântica Distribucional. Indexação. Expansão de Consultas.</div> |
id |
UECE-0_92b39d7ba1472155cc46e700af738563 |
---|---|
oai_identifier_str |
oai:uece.br:83480 |
network_acronym_str |
UECE-0 |
network_name_str |
Repositório Institucional da UECE |
repository_id_str |
|
spelling |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentosCiência da computação Desenvolvimento de softwares Recuperação de informação<div style="">Esta dissertação descreve um sistema de Recuperação de Informação (RI) para coleções de documentos aproximadamente uniformes em tamanho e formato. Exemplos de tais coleções são anais de conferências ou revistas científicas, prontuários médicos, sinopses de notícias, entre outros. Todas as coleções possuem em comum o mesmo domínio. A questão chave em RI é trazer a necessidade de informação do usuário em documentos relevantes. A consulta por ele projetada pode não carregar toda sua intenção do que realmente deseja. Na literatura o uso de diversas técnicas de realimentação implícita de consultas ataca diretamente esse problema. Para este trabalho analisaram-se as técnicas existentes desde o uso de tesauro até propor uma abordagem que usa a teoria de Semântica Distribucional para construir uma Análise de Contexto Local. Utilizou-se quatro coleções com distintos aspectos de domínio, sendo uma das coleções originalmente construída em português e disponibilizada para trabalhos futuros. O trabalho propõe avaliar o sistema de RI como um todo: com a expansão de consulta, a recuperação e o ranqueamento com algoritmos de baseline equivalentes aos métodos clássicos. Como forma de alcançar êxito nas tarefas que compõem o estado da arte de RI foi desenvolvido um motor de busca com interface Web que permite também o uso de técnicas de feedback de relevância. A abordagem é avaliada nas quatro bases de dados em inglês e português e comparada com técnicas semelhantes. Os resultados dos experimentos validaram a abordagem e mostram-se com uma performance competitiva e qualificada para as soluções geradas. </div><div style="">Palavras-chave: Recuperação de informação. Análise de Contexto Local. Semântica Distribucional. Indexação. Expansão de Consultas.</div><div style="">This dissertation describes an Information Retrieval (IR) system for collections of documents approximately uniform in size and format. Examples of such collections are annals of conferences or scientific journals, medical records, news synopses, among others. All collections have the same domain in common. The key issue in IR is to bring the need for user information into relevant documents. The query designed may not carry all intention of what really wants. In the literature, the use of several implicit query feedback techniques directly addresses this problem. For this work we will analyze the existing techniques from the use of thesaurus to propose an approach that uses the theory of Distributional Semantics to build a Local Context Analysis. Used four collections with different aspects of domain, one of the collections originally built in Portuguese and made available for future work. The work proposes to evaluate the IR system as a whole: with the query expansion, retrieval and ranking with baseline algorithms equivalent to classical methods. As a way of achieving success in the tasks that make up the state of the art of IR, a search engine with Web interface was developed which also allows the use of relevance feedback techniques. Our approach is evaluated in four databases in English and Portuguese and compared with similar techniques.The results of the experiments were validated and shown with competitive and qualified performance for the solutions generated. </div><div style="">Keywords: Information retrieval. Local Context Analysis. Distributional Semantics. Indexing. Query Automatic Expansion.</div>Universidade Estadual do CearáJOSE EVERARDO BESSA MAIASilva, Fabiano Tavares da2019-05-03T13:38:02Z2018info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=83480info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UECEinstname:Universidade Estadual do Cearáinstacron:UECE2019-05-03T13:38:02Zoai:uece.br:83480Repositório InstitucionalPUBhttps://siduece.uece.br/siduece/api/oai/requestopendoar:2019-05-03T13:38:02Repositório Institucional da UECE - Universidade Estadual do Cearáfalse |
dc.title.none.fl_str_mv |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentos |
title |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentos |
spellingShingle |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentos Silva, Fabiano Tavares da Ciência da computação Desenvolvimento de softwares Recuperação de informação |
title_short |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentos |
title_full |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentos |
title_fullStr |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentos |
title_full_unstemmed |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentos |
title_sort |
Luppar: um sistema de recuperação de informação para coleções fechadas de documentos |
author |
Silva, Fabiano Tavares da |
author_facet |
Silva, Fabiano Tavares da |
author_role |
author |
dc.contributor.none.fl_str_mv |
JOSE EVERARDO BESSA MAIA |
dc.contributor.author.fl_str_mv |
Silva, Fabiano Tavares da |
dc.subject.por.fl_str_mv |
Ciência da computação Desenvolvimento de softwares Recuperação de informação |
topic |
Ciência da computação Desenvolvimento de softwares Recuperação de informação |
description |
<div style="">Esta dissertação descreve um sistema de Recuperação de Informação (RI) para coleções de documentos aproximadamente uniformes em tamanho e formato. Exemplos de tais coleções são anais de conferências ou revistas científicas, prontuários médicos, sinopses de notícias, entre outros. Todas as coleções possuem em comum o mesmo domínio. A questão chave em RI é trazer a necessidade de informação do usuário em documentos relevantes. A consulta por ele projetada pode não carregar toda sua intenção do que realmente deseja. Na literatura o uso de diversas técnicas de realimentação implícita de consultas ataca diretamente esse problema. Para este trabalho analisaram-se as técnicas existentes desde o uso de tesauro até propor uma abordagem que usa a teoria de Semântica Distribucional para construir uma Análise de Contexto Local. Utilizou-se quatro coleções com distintos aspectos de domínio, sendo uma das coleções originalmente construída em português e disponibilizada para trabalhos futuros. O trabalho propõe avaliar o sistema de RI como um todo: com a expansão de consulta, a recuperação e o ranqueamento com algoritmos de baseline equivalentes aos métodos clássicos. Como forma de alcançar êxito nas tarefas que compõem o estado da arte de RI foi desenvolvido um motor de busca com interface Web que permite também o uso de técnicas de feedback de relevância. A abordagem é avaliada nas quatro bases de dados em inglês e português e comparada com técnicas semelhantes. Os resultados dos experimentos validaram a abordagem e mostram-se com uma performance competitiva e qualificada para as soluções geradas. </div><div style="">Palavras-chave: Recuperação de informação. Análise de Contexto Local. Semântica Distribucional. Indexação. Expansão de Consultas.</div> |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018 2019-05-03T13:38:02Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=83480 |
url |
https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=83480 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual do Ceará |
publisher.none.fl_str_mv |
Universidade Estadual do Ceará |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UECE instname:Universidade Estadual do Ceará instacron:UECE |
instname_str |
Universidade Estadual do Ceará |
instacron_str |
UECE |
institution |
UECE |
reponame_str |
Repositório Institucional da UECE |
collection |
Repositório Institucional da UECE |
repository.name.fl_str_mv |
Repositório Institucional da UECE - Universidade Estadual do Ceará |
repository.mail.fl_str_mv |
|
_version_ |
1828295895447240704 |