Classificação de publicações em Humanidades Digitais apoiada em abordagem taxonômica

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Jesus, Luiz Carlos de lattes
Orientador(a): Corrêa, Ricardo Cordeiro lattes
Banca de defesa: Corrêa, Ricardo Cordeiro lattes, Fortes, Alexandre lattes, Mello, Carlos Eduardo Ribeiro de lattes, Carvalho, Lucas Correia lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal Rural do Rio de Janeiro
Programa de Pós-Graduação: Programa de Pós-Graduação Interdisciplinar em Humanidades Digitais
Departamento: Instituto Multidisciplinar de Nova Iguaçu
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://rima.ufrrj.br/jspui/handle/20.500.14407/18650
Resumo: As publicações em periódicos científicos e em conferências especializadas desempenham o papel primordial de expressar os temas de interesse de autores e leitores em um de- terminado campo do conhecimento. Nesse sentido, o esforço de organizar a produção científica é vital para o avanço da difusão dos conteúdos produzidos de forma inequí- voca, rápida e segura. Considerando a atual inundação informacional provocada pelas ferramentas digitais, a questão da classificação automatizada se torna premente e deve obrigatoriamente ser abordada em todo repositório ou plataforma digital de publicações científicas. Dentre outros aspectos, sobressai-se o uso de uma taxonomia pela sua capaci- dade de adicionar um elemento semântico hierárquico ao ato de classificar ou categorizar conceitos e informações específicas que definem o domínio de um campo do conhecimento. Particularmente no campo das Humanidades Digitais, a cultura epistemológica que vem sendo construída pela sua crescente comunidade tem feito nascer e crescer projetos in- ternacionais que abordam a questão em um ambiente com desafios adicionais devido ao seu perfil fortemente interdisciplinar. O objetivo desta dissertação é usar ferramentas computacionais de análise por tópicos de textos para desenvolver um método auxiliar de classificação léxica de publicações apoiado em uma taxonomia denominada TaDiRAH – Taxonomy of Digital Research Activities in the Humanities. O método proposto pode ser visto como uma combinação da abordagem semântica da taxonomia com a abordagem léxica da análise automatizada de textos. Suas categorias são de uso livre e prático. No entanto, não é incomum, e até esperado pelo perfil interdisciplinar, que uma publicação possa ser classificada em diferentes categorias de níveis diferentes ou de mesmo nível da taxonomia, criando assim sobreposições. Somado a isso, a quantidade de publicações já classificadas artesanalmente pela comunidade científica ainda é relativamente pequena e, sobretudo, extremamente desbalanceada entre as categorias da taxonomia. Esses dois aspectos que caracterizam a amostragem disponível tornam a tarefa de classificar com fi- dedignidade publicações em Humanidades Digitais particularmente difícil. Propomos um método que combina modelos de classificação bayesianos da literatura com abordagens originais para lidar com sobreposições e desbalanceamento entre as categorias da taxo- nomia. Resultados de experimentos computacionais realizados com um universo de 443 publicações mostraram que as abordagens propostas são, de fato, capazes de melhorar profundamente o desempenho dos métodos de classificação empregados.