Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Porto, Diego Rolim |
Orientador(a): |
Xavier Júnior, João Carlos |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal do Rio Grande do Norte
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Tecnologia da Informação
|
Departamento: |
Instituto Metrópole Digital
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufrn.br/handle/123456789/48335
|
Resumo: |
A classificação manual de documentos representa, na maioria dos casos, um processo lento e custoso, visto que tal processo está baseado na leitura de parte dos documentos. Assim, este trabalho tem como objetivo a realização de um estudo de diferentes técnicas de Mineração de Texto e Processamento de Linguagem Natural (PLN) para a classificação automática de documentos relacionados à prestação de contas dos municípios do Estado do Rio Grande do Norte. Dessa forma, dentre os métodos encontrados na literatura, escolheu-se o TF-IDF e o Doc2Vec, principalmente por apresentarem características distintas. Nesse contexto, é importante analisar o desempenho de ambos os métodos, assim como a complexidade da construção de dicionários para o primeiro e a etapa de treinamento necessária para o segundo. Para esse fim, foram criados dois conjuntos de documentos, sendo um para treinamento ou criação dos dicionários, e outro para o teste de ambos os métodos. Nesse sentido, os resultados experimentais demonstraram que a metodologia baseada em Doc2Vec é mais indicada para a aplicação no Tribunal de Contas do Estado do Rio Grande do Norte. Este resultado é justificado baseando-se na acurácia de 100\% obtida nos testes realizados e em uma melhor escalabilidade das implementações utilizadas no método. |