Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Porto, Diego Rolim
Orientador(a): Xavier Júnior, João Carlos
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Rio Grande do Norte
Programa de Pós-Graduação: Programa de Pós-Graduação em Tecnologia da Informação
Departamento: Instituto Metrópole Digital
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufrn.br/handle/123456789/48335
Resumo: A classificação manual de documentos representa, na maioria dos casos, um processo lento e custoso, visto que tal processo está baseado na leitura de parte dos documentos. Assim, este trabalho tem como objetivo a realização de um estudo de diferentes técnicas de Mineração de Texto e Processamento de Linguagem Natural (PLN) para a classificação automática de documentos relacionados à prestação de contas dos municípios do Estado do Rio Grande do Norte. Dessa forma, dentre os métodos encontrados na literatura, escolheu-se o TF-IDF e o Doc2Vec, principalmente por apresentarem características distintas. Nesse contexto, é importante analisar o desempenho de ambos os métodos, assim como a complexidade da construção de dicionários para o primeiro e a etapa de treinamento necessária para o segundo. Para esse fim, foram criados dois conjuntos de documentos, sendo um para treinamento ou criação dos dicionários, e outro para o teste de ambos os métodos. Nesse sentido, os resultados experimentais demonstraram que a metodologia baseada em Doc2Vec é mais indicada para a aplicação no Tribunal de Contas do Estado do Rio Grande do Norte. Este resultado é justificado baseando-se na acurácia de 100\% obtida nos testes realizados e em uma melhor escalabilidade das implementações utilizadas no método.