Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Katahira, Isaque [UNESP] |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://hdl.handle.net/11449/236389
|
Resumo: |
Os Repositórios Institucionais (RI) têm papel fundamental na divulgação do conhecimento, especialmente das publicações acadêmicas. Executados em diversas plataformas de software, com grande diversidade de sistemas de instalação, configuração e suporte, os RI remodelaram as formas de armazenamento, organização e recuperação de materiais, trazendo maior agilidade para todos esses processos. No entanto, disponibilizar recursos on-line para recuperação direta dos usuários é desafiador, na medida em que se faz necessário combinar o processo técnico realizado internamente nas bibliotecas com as necessidades dos usuários externos. Nessa perspectiva, a falta de articulação entre os vocabulários utilizados durante a indexação e os vocabulários utilizados pelos usuários tende a provocar ruídos e fracassos nos processos de busca e recuperação. Em vista disso, esta pesquisa teve como objetivo realizar estudo teórico e metodológico sobre a análise de logs, suas funções e sua utilização para atualização de vocabulários controlados para repositórios institucionais. Para tanto, realizou-se pesquisa qualitativa e quantitativa e seu desenvolvimento se realizou em duas etapas: pesquisa exploratória e pesquisa descritiva. A pesquisa exploratória utilizou levantamento bibliográfico e análise documental e a pesquisa descritiva focalizou o trabalho com os dados coletados, para realizar análises as quais subsidiam o desenvolvimento de uma metodologia empírica para a análise de logs, baseada no modelo teórico de Jansen (2008). Assim, o processo descritivo e analítico resultou na proposta metodológica para atualização de vocabulário controlado por meio da análise de logs de busca, implementada na ferramenta computacional desenvolvida nesta Tese: a RILogUser (Institutional Repository for User Log), disponível em: https://github.com/ikatahira/Doutorado, uma ferramenta capaz de, a partir de um grande volume de dados, propiciar a seleção de dados relevantes e a comparação de vocabulários empregados por diferentes agentes de maneira produtiva. Entre as funcionalidades e características dessa ferramenta, destacam-se: (a) apresentação de uma visão sistemática do processo de análise de logs de buscas dos usuários; (b) possibilidade de integração com outras listagens de palavras, possibilitando a aplicação em RI diferentes; (c) apresentação de forma detalhada das etapas com exemplificações e seus respectivos produtos; (d) possibilidade de criação de vários vocabulários (baseado nos logs de buscas, palavras-chave dos autores e termos do Tesauro Unesp). A análise da lista de palavras oriundas dos logs de busca dos usuários, comparada à lista de palavras-chave atribuídas pelos autores aos documentos indexados no RI Unesp, viabilizou a obtenção de uma lista de expressões de busca contendo palavras simples, palavras compostas e frases, as quais compõem a lista de 5.826 palavras exclusivas às pesquisas dos usuários e 760 palavras comuns aos logs de pesquisas dos usuários e palavras-chave dos autores, ambas as listagens candidatas à atualização do vocabulário controlado Tesauro Unesp. Dessa forma, a análise de logs se apresentou como fonte confiável de informações, as quais, gerenciadas por estratégias computacionais, têm amplo potencial para otimizar instrumentos de representação, a fim de beneficiar os processos de busca e, consequentemente, de recuperação de informações. Os resultados experimentais, obtidos a partir da metodologia desenvolvida, se mostrou eficaz por viabilizar uma grande depuração de expressões de busca de usuários e palavras-chave dos autores, que produziu um corpus terminológico consistente proveniente diretamente da linguagem utilizada no RI, como fonte informacional para atualização de vocabulário. |