Utilização da estrutura de ligações da Web em problemas de recuperação de informação
Ano de defesa: | 2004 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Minas Gerais
UFMG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://hdl.handle.net/1843/SLBS-645J3Y |
Resumo: | A popularidade e o crescimento da World Wide Web oferecem uma oportunidade única para a experimentação em larga escala, o que tem afetado de sobremaneira a pesquisa em várias áreas do conhecimento, particularmente, a área de Recuperação de Informação (RI). Por exemplo, entre as muitas novas técnicas criadas no contexto da Web, análise de ligações (links) é uma que tem atraído grande atenção. A razão é que informação sobre as ligações entre páginas e pode ser usada para melhorar a qualidade das respostas de uma consulta do usuário. Neste trabalho, estudamos como ligações entre páginas e podem ser aplicadas na resolução de dois problemas distintos: (a) ordenação de respostas a uma consulta e (b) classificação de documentos da Web. Para isso modelos formais baseados em redes Bayesianas são propostos. Estes modelos são validados através de testes executados numa coleção extraída da Web brasileira. Os resultados mostram que, efetivamente, ligações entre páginas Web são umas fontes de evidência importantes, tanto para ordenar como para classificar documentos. Em ambos os caso, combinação de informação de ligações entre páginas Web com informação sobre o conteúdo das páginas produz resultados melhores do que aqueles obtidos com o uso de cada fonte de evidência isoldamente. Para o problema de ordenação das respostas, informação sobre as ligações entre páginas Web produz resultados de alta precisão no topo do conjunto ordenado de documentos. Na tarefa de classificação, as ligações entre as páginas demonstraram ser uma fonte de evidência mais confiável que o próprio texto dos documentos. |