Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: ARAÚJO JÚNIOR, José Gildo de.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878
Resumo: Atualmente, um dos principais desafios no campo da Recuperação de Informação (RI) é o desenvolvimento de sistemas que processem corretamente a ideia ou conceito por trás das consultas emitidas pelos usuários. Sistemas convencionais de RI, geralmente limitam suas funcionalidades à indexação e recuperação por palavras-chave, mecanismo que gera resultados incipientes quando termos indexados não são mencionados na consulta. Consultas tais como: “O rei da música brasileira” e “Roberto Carlos”, mesmo utilizando um distinto grupo de palavras, podem representar a mesma ideia ou conceito e, portanto, o sistema deveria retornar o mesmo conjunto resposta. Entretanto, para sistemas de RI que não consideram o aspecto semântico, ambas consultas retornarão, eventualmente, conjuntos respostas distintos. Propõe-se, neste trabalho, um novo paradigma de indexação semântica de conceitos, onde, neste novo enfoque, conceitos presentes em documentos textuais são enriquecidos semanticamente de maneira automática por meio de informações presentes em fontes heterogêneas de informação, unindo, em um único ambiente, características de dicionários, enciclopédias e de sentido comum. Desta maneira, isola-se a ideia ou conceitualização dos objetos de suas inúmeras formas de representação. A abordagem proposta foi comparada com o projeto UBY, um recurso léxico-semântico de grande escala que combina uma vasta gama de informações construídas tanto por peritos quanto coletivamente para o idioma Inglês e Alemão. De maneira que ambas foram submetidas a diversas coleções de documentos e foi comprovada a superioridade da abordagem proposta quando comparada ao UBY. Para isso, mediu-se o número de conceitos presentes nas coleções de documentos identificados por ambas as abordagens; a conectividade, onde computou-se para cada elemento identificado o número de conexões estabelecidas com outros conceitos; e, a qualidade do enriquecimento semântico produzido, onde foram computadas as relações semânticas estabelecidas entre conceitos.