Utilização da estrutura de ligações da Web em problemas de recuperação de informação

Detalhes bibliográficos
Ano de defesa: 2004
Autor(a) principal: Pavel Pereira Calado
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/SLBS-645J3Y
Resumo: A popularidade e o crescimento da World Wide Web oferecem uma oportunidade única para a experimentação em larga escala, o que tem afetado de sobremaneira a pesquisa em várias áreas do conhecimento, particularmente, a área de Recuperação de Informação (RI). Por exemplo, entre as muitas novas técnicas criadas no contexto da Web, análise de ligações (links) é uma que tem atraído grande atenção. A razão é que informação sobre as ligações entre páginas e pode ser usada para melhorar a qualidade das respostas de uma consulta do usuário. Neste trabalho, estudamos como ligações entre páginas e podem ser aplicadas na resolução de dois problemas distintos: (a) ordenação de respostas a uma consulta e (b) classificação de documentos da Web. Para isso modelos formais baseados em redes Bayesianas são propostos. Estes modelos são validados através de testes executados numa coleção extraída da Web brasileira. Os resultados mostram que, efetivamente, ligações entre páginas Web são umas fontes de evidência importantes, tanto para ordenar como para classificar documentos. Em ambos os caso, combinação de informação de ligações entre páginas Web com informação sobre o conteúdo das páginas produz resultados melhores do que aqueles obtidos com o uso de cada fonte de evidência isoldamente. Para o problema de ordenação das respostas, informação sobre as ligações entre páginas Web produz resultados de alta precisão no topo do conjunto ordenado de documentos. Na tarefa de classificação, as ligações entre as páginas demonstraram ser uma fonte de evidência mais confiável que o próprio texto dos documentos.