Análise de logs de busca como fonte informacional para atualização de vocabulário controlado em repositórios institucionais

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Katahira, Isaque [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/236389
Resumo: Os Repositórios Institucionais (RI) têm papel fundamental na divulgação do conhecimento, especialmente das publicações acadêmicas. Executados em diversas plataformas de software, com grande diversidade de sistemas de instalação, configuração e suporte, os RI remodelaram as formas de armazenamento, organização e recuperação de materiais, trazendo maior agilidade para todos esses processos. No entanto, disponibilizar recursos on-line para recuperação direta dos usuários é desafiador, na medida em que se faz necessário combinar o processo técnico realizado internamente nas bibliotecas com as necessidades dos usuários externos. Nessa perspectiva, a falta de articulação entre os vocabulários utilizados durante a indexação e os vocabulários utilizados pelos usuários tende a provocar ruídos e fracassos nos processos de busca e recuperação. Em vista disso, esta pesquisa teve como objetivo realizar estudo teórico e metodológico sobre a análise de logs, suas funções e sua utilização para atualização de vocabulários controlados para repositórios institucionais. Para tanto, realizou-se pesquisa qualitativa e quantitativa e seu desenvolvimento se realizou em duas etapas: pesquisa exploratória e pesquisa descritiva. A pesquisa exploratória utilizou levantamento bibliográfico e análise documental e a pesquisa descritiva focalizou o trabalho com os dados coletados, para realizar análises as quais subsidiam o desenvolvimento de uma metodologia empírica para a análise de logs, baseada no modelo teórico de Jansen (2008). Assim, o processo descritivo e analítico resultou na proposta metodológica para atualização de vocabulário controlado por meio da análise de logs de busca, implementada na ferramenta computacional desenvolvida nesta Tese: a RILogUser (Institutional Repository for User Log), disponível em: https://github.com/ikatahira/Doutorado, uma ferramenta capaz de, a partir de um grande volume de dados, propiciar a seleção de dados relevantes e a comparação de vocabulários empregados por diferentes agentes de maneira produtiva. Entre as funcionalidades e características dessa ferramenta, destacam-se: (a) apresentação de uma visão sistemática do processo de análise de logs de buscas dos usuários; (b) possibilidade de integração com outras listagens de palavras, possibilitando a aplicação em RI diferentes; (c) apresentação de forma detalhada das etapas com exemplificações e seus respectivos produtos; (d) possibilidade de criação de vários vocabulários (baseado nos logs de buscas, palavras-chave dos autores e termos do Tesauro Unesp). A análise da lista de palavras oriundas dos logs de busca dos usuários, comparada à lista de palavras-chave atribuídas pelos autores aos documentos indexados no RI Unesp, viabilizou a obtenção de uma lista de expressões de busca contendo palavras simples, palavras compostas e frases, as quais compõem a lista de 5.826 palavras exclusivas às pesquisas dos usuários e 760 palavras comuns aos logs de pesquisas dos usuários e palavras-chave dos autores, ambas as listagens candidatas à atualização do vocabulário controlado Tesauro Unesp. Dessa forma, a análise de logs se apresentou como fonte confiável de informações, as quais, gerenciadas por estratégias computacionais, têm amplo potencial para otimizar instrumentos de representação, a fim de beneficiar os processos de busca e, consequentemente, de recuperação de informações. Os resultados experimentais, obtidos a partir da metodologia desenvolvida, se mostrou eficaz por viabilizar uma grande depuração de expressões de busca de usuários e palavras-chave dos autores, que produziu um corpus terminológico consistente proveniente diretamente da linguagem utilizada no RI, como fonte informacional para atualização de vocabulário.