Anotações semânticas em repositórios acadêmicos: um estudo de caso com o RI UFBA

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Rocha, Aline Meira
Orientador(a): Salvador, Laís do Nascimento
Banca de defesa: Claro, Daniela Barreiro, Rosa, Flávia Goulart Mota Garcia
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Bahia
Instituto de Matemática e Estatística
Programa de Pós-Graduação: em Ciência da Computação
Departamento: Não Informado pela instituição
País: brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufba.br/ri/handle/ri/33750
Resumo: Anotações Semânticas permitem enriquecer os metadados de um documento, o que facilita a recuperação do mesmo pelos mecanismos de busca. Por sua vez, Repositórios Institucionais (RI) são repositórios acadêmicos que possibilitam o armazenamento e a divulgação das produções científicas de universidades e centros de pesquisa. As informações sobre cada item depositado são armazenadas em seus metadados, mas como usualmente isso é feito de maneira manual pelo próprio pesquisador nem sempre os termos escolhidos ajudam nessa descrição, o que leva à intervenção dos bibliotecários no processo. A anotação semântica de metadados referentes à comunidade, subcomunidade e palavras-chave permite o enriquecimento das descrições de itens do RI, além de facilitar o processo de recuperação. O objetivo geral desse trabalho é desenvolver uma solução para realizar a anotação semântica de maneira semiautomática em um RI de forma a auxiliar o trabalho dos bibliotecários durante a validação dos metadados de cada publicação. Para isso, a sugestão de palavras-chave durante a validação dos metadados identificaria termos representativos de cada publicação e enriqueceria semanticamente esses metadados, favorecendo a recuperação dos itens em um RI. Já métodos de aprendizagem de máquina de classificação textual binária podem sugerir que uma publicação também seja associada a outra subcomunidade caso seja identificado que se trata de trabalho multidisciplinar. Através da implementação de um classificador multi-hierárquico também é possível identificar comunidades e subcomunidade de publicações ainda não depositados no RI. Para atingir o objetivo proposto, os seguintes passos foram executados: (i) montagem de um ambiente de teste contendo um conjunto de documentos do RI UFBA com seus respectivos metadados e implementação de classificadores multi-hierárquicos e binários; (ii) avaliação dos classificadores a fim de identificar quais apresentam os melhores resultados; (iii) implementação do extrator de palavras-chaves; (iv) realização de um estudo de caso no RI da UFBA, no qual as palavras-chave extraídas passaram pela validação de especialistas de domínio, no caso as bibliotecárias do Sistema de Bibliotecas da UFBA (SIBI) e (vi) anotação semântica dos resultados obtidos no experimento dos classificadores e no estudo de caso. Os resultados obtidos mostram que a classificação multi-hierárquica teve ́um bom desempenho, sendo que o algoritmo de Naive Bayes apresentou os melhores resultados, com os valores das métricas acima de 85\% no 1º nível e acima de 80\% nos comunidades, com destaque na comunidade IME, na qual atingiu valores acima de 96\%. Na classificação binária foram observados resultados promissores, dada a complexidade da tarefa: foram retornados treze (13) trabalhos de vinte e oito (28) identificados como multidisciplinares, considerando o conjunto de documentos utilizado nos experimentos. Já no estudo de caso foi avaliado que as palavras-chave sugeridas foram adequadas. Por fim, foi realizada a anotação semântica utilizando o padrão RDF do Dublin Core a partir dos resultados obtidos na classificação textual e validação das sugestões de palavras-chave. O uso do classificador binário mostra um caminho para identificação de trabalhos multidisciplinares, campo pouco explorado na literatura, por sua vez o classificador multi-hierárquico pode ser usado em situações de povoamento de RI. A sugestão de palavras-chave auxiliaria à complementação da palavras-chaves realizadas pelos bibliotecários durante a validação dos metadados de cada documento. Por sua vez, as sugestões de comunidade, subcomunidade e palavra-chave podem ser anotados semanticamente no documento do RI com a finalidade de enriquecimento de seus metadados.