Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Jesus, Luiz Carlos de
 |
Orientador(a): |
Corrêa, Ricardo Cordeiro
 |
Banca de defesa: |
Corrêa, Ricardo Cordeiro
,
Fortes, Alexandre
,
Mello, Carlos Eduardo Ribeiro de
,
Carvalho, Lucas Correia
 |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal Rural do Rio de Janeiro
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação Interdisciplinar em Humanidades Digitais
|
Departamento: |
Instituto Multidisciplinar de Nova Iguaçu
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://rima.ufrrj.br/jspui/handle/20.500.14407/18650
|
Resumo: |
As publicações em periódicos científicos e em conferências especializadas desempenham o papel primordial de expressar os temas de interesse de autores e leitores em um de- terminado campo do conhecimento. Nesse sentido, o esforço de organizar a produção científica é vital para o avanço da difusão dos conteúdos produzidos de forma inequí- voca, rápida e segura. Considerando a atual inundação informacional provocada pelas ferramentas digitais, a questão da classificação automatizada se torna premente e deve obrigatoriamente ser abordada em todo repositório ou plataforma digital de publicações científicas. Dentre outros aspectos, sobressai-se o uso de uma taxonomia pela sua capaci- dade de adicionar um elemento semântico hierárquico ao ato de classificar ou categorizar conceitos e informações específicas que definem o domínio de um campo do conhecimento. Particularmente no campo das Humanidades Digitais, a cultura epistemológica que vem sendo construída pela sua crescente comunidade tem feito nascer e crescer projetos in- ternacionais que abordam a questão em um ambiente com desafios adicionais devido ao seu perfil fortemente interdisciplinar. O objetivo desta dissertação é usar ferramentas computacionais de análise por tópicos de textos para desenvolver um método auxiliar de classificação léxica de publicações apoiado em uma taxonomia denominada TaDiRAH – Taxonomy of Digital Research Activities in the Humanities. O método proposto pode ser visto como uma combinação da abordagem semântica da taxonomia com a abordagem léxica da análise automatizada de textos. Suas categorias são de uso livre e prático. No entanto, não é incomum, e até esperado pelo perfil interdisciplinar, que uma publicação possa ser classificada em diferentes categorias de níveis diferentes ou de mesmo nível da taxonomia, criando assim sobreposições. Somado a isso, a quantidade de publicações já classificadas artesanalmente pela comunidade científica ainda é relativamente pequena e, sobretudo, extremamente desbalanceada entre as categorias da taxonomia. Esses dois aspectos que caracterizam a amostragem disponível tornam a tarefa de classificar com fi- dedignidade publicações em Humanidades Digitais particularmente difícil. Propomos um método que combina modelos de classificação bayesianos da literatura com abordagens originais para lidar com sobreposições e desbalanceamento entre as categorias da taxo- nomia. Resultados de experimentos computacionais realizados com um universo de 443 publicações mostraram que as abordagens propostas são, de fato, capazes de melhorar profundamente o desempenho dos métodos de classificação empregados. |