SAAL - um sistema para Armazenammento e Análise de Links da Web

Detalhes bibliográficos
Ano de defesa: 2003
Autor(a) principal: Coelho, Roberta de Souza
Orientador(a): Meira, Silvio Romero de Lemos
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/2539
Resumo: O aumento do número de documentos disponíveis na World Wide Web (WWW) traz uma série de novos desafios para a área de Recuperação de Informação (RI). As páginas Web divergem em conteúdo e qualidade além de possuírem uma alta dinâmica. Em adição a estes desafios os engenho de busca estão constantemente lidando com usuários inexperientes e com páginas Web construídas com o intuito de manipular as funções de ranking dos engenhos de busca. Estudos recentes têm mostrado que a performance dos engenhos de busca está longe da ideal. Apesar das evoluções tecnológicas, conseguidas até o momento, permitirem a coleta e o armazenamento de um número cada vez maior de páginas nas bases de índices dos engenhos de busca, a maioria destes sistemas enfrenta vários problemas no momento de classificar as páginas de acordo com a necessidade do usuário, em outras palavras, retornar para o usuário a informação que ele necessita. A maioria dos engenhos de busca analisa as páginas Web como um documento texto simples, não levando em consideração a estrutura na qual a página Web está inserida. Diferentemente das coleções de documentos flat , a WWW corresponde a uma coleção de documentos hipertexto que possuem informações auxiliares que vão além do conteúdo textual, tais como a estrutura dos hiperlinks e o texto dos hiperlinks. Estas informações são chamadas de informações hiper , que em conjunto com as informações texto compõem o conjunto de informações que caracteriza uma página Web. A inadequação de estratégias singulares no processo de recuperação de informações no ambiente Web constitui-se em um forte argumento para mostrar que as técnicas recuperação de informação tradicionais não são suficientes no momento de encontrar informações relevantes na Web. Este trabalho propõe a utilização da estrutura de links da Web com o objetivo de produzir um peso de importância global para cada página Web indexada por um engenho de busca. Este peso, chamado peso de autoridade , é integrado aos engenhos de busca, mais especificamente a função de ranking dos engenhos de busca que passa a utilizar estes pesos juntamente com pesos de similaridade textual, com o objetivo de melhorar a eficácia de recuperação do sistemaPara calcular o peso de autoridade para cada página Web foi elaborado um algoritmo de análise de links, o Global Hybrid Hyperlinked Inducted Topic Search (GHHITS) que foi concebido a partir do estudo dos algoritmos de análise de links préexistentes. Para validar o algoritmo em questão foi implementado o SAAL - Sistema para Armazenamento e Análise de Links - que propõe uma maneira eficiente de armazenar a estrutura de links da Web, e executar o algoritmo proposto sobre esta estrutura. Por fim, são apresentados os resultados obtidos durante os testes que avaliaram a eficácia de recuperação de estratégias de busca que utilizaram o peso de autoridade como componente da função de ranking. Neste trabalho é mostrado, portanto, como as informações estruturais podem ser utilizadas de forma a melhorar a qualidade da resposta retornada por um engenho de busca