Classificação Automática de Produções Científicas em Inteligência Artificial Utilizando Processamento de Linguagem Natural.

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Gruendemann, Felipe Camargo
Orientador(a): Araújo, Ricardo Matsumura de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pelotas
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação
Departamento: Centro de Desenvolvimento Tecnológico
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://guaiaca.ufpel.edu.br/handle/prefix/9235
Resumo: A análise de comunidades científicas é um tema importante para compreensão de cenários científicos em diferentes perspectivas. Esse assunto ganha força com o desenvolvimento de bibliotecas digitais. Nesse contexto, existem diferentes re positórios virtuais que disponibilizam dados bibliográficos de produções científicas e informações sobre autores e veículos de publicação. No Brasil, a principal base de dados científicos é a Plataforma Lattes, que conta com milhões de currículos de pesquisadores. Contudo, a plataforma carece de formas automatizadas para análise de dados e enfrenta problemas relacionados ao preenchimento manual de texto livre. Dessa forma, a tarefa de analisar o volume de publicações por assunto pode ser uma tarefa difícil. Modelos de machine learning aplicados com técnicas de processamento de linguagem natural vêm se mostrando uma alternativa útil para classificação de texto. Assim, neste trabalho, foram desenvolvidos modelos para classificar subárea e especialidade de trabalhos, baseando-se apenas no título. Como caso de estudo, foi utilizada a subárea de Inteligência Artificial e suas especialidades. Assim, foram construídos conjuntos de dados extraídos da plataforma The DBLP Computer Science Bibliography (DBLP) para o desenvolvimento de dois modelos: um para classificar se um determinado título da computação está relacionado à subárea da IA; outro para classificar, dentre sete categorias, qual a especialidade da IA. Os modelos atingiram acurácia de 93% e 71%, respectivamente.