[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
MAXWELL
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901&idi=2 http://doi.org/10.17771/PUCRio.acad.55901 |
Resumo: | [pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot. |