Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: CUNHA, Mateus Queiroz.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228
Resumo: A Ciência Jurídica destaca-se como um campo promissor para o Processamento de Linguagem Natural, contendo informações relevantes em diversos domínios que impactam a sociedade. O presente estudo concentra-se na identificação de publicações tributárias no Diário Oficial da União (DOU) por meio de uma abordagem de classificação de texto. Durante a análise do contexto tributário no DOU, evidenciou-se o desafio de lidar com o contexto desbalanceado, além da necessidade da criação de um conjunto de dados anotado focado no domínio tributário, tendo sido empregada uma estratégia de anotação automática de registros. A utilização de Modelos de Linguagem Grandes (do inglês, Large Language Models, ou LLMs), baseados em transformers, nos experimentos conduzidos destacou a eficácia dessa abordagem na classificação de dados tributários, mesmo diante dos desafios identificados. A partir dos resultados obtidos, observou-se que manter o desbalanceamento no conjunto de dados de treinamento implicou em melhores resultados para o cenário em questão. Além disso, os resultados também indicam que os LLMs com arquitetura encoder continuam sendo uma opção eficiente, proporcionando rapidez e compatibilidade com hardware de uso geral. Esses modelos mantêm sua eficácia, mesmo em meio à tendência de preferência por LLMs com arquitetura decoder com um número cada vez maior de parâmetros, especialmente em cenários com limitações de recurso de hardware.