A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Conceição, Claudio Roberto de Oliveira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/235053
Resumo: Em vista da rápida expansão e dinamicidade da Web, os mecanismos de busca assumiram um papel essencial para a recuperação de informação nesse imenso repositório. Com o grande número de páginas sendo constantemente adicionados e modificadas, a eficiência dos mecanismos de busca torna-se fundamental. Um crawler é o elemento principal de um mecanismo de busca. Sua função é navegar pela estrutura hipertextual da Web de forma sistemática afim obter e indexar páginas, formando um acervo documental utilizados pelo mecanismo de busca. Os Web Crawlers de propósito geral, utilizados pelos mecanismos de busca como o Google e o Bing, funcionam exaustivamente, procurando coletar e indexar o maior número de documentos possível. Um Web crawler focado é um tipo de crawler que coleta páginas contendo informações sobre um determinado tema ou assunto, gerando um conjunto de documentos qualificado e contextualizado, permitindo aumentar a eficiência de um mecanismo de busca. Este trabalho propõe a utilização de Web crawlers focados juntamente com técnicas de clustering. Técnicas de clustering (agrupamento) têm sido usadas na recuperação de informações para muitos propósitos diferentes tais como expansão de consulta, agrupamento de documentos, indexação de documentos e visualização de resultados de busca. A partir de uma pesquisa exploratória e descritiva, fundamentada em bibliografia específica, este trabalho propõe a utilização conjunta de Web crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação. Inicialmente o crawler focado fornece um conjunto de documentos (páginas Web) restrito a um assunto ou tema. A partir do corpus temático fornecido pelo crawler, o processo classificatório dos algoritmos de Clustering podem então gerar grupos (clusters) de documentos relacionados às especificidades ou detalhamentos do tema. A base teórica apresentada neste estudo possui o potencial de tornar-se uma proposta para a implementação um mecanismo de busca experimental, demonstrando a sua aplicabilidade e contribuindo para o campo de pesquisa.