Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.

CUNHA, Mateus Queiroz.

Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	CUNHA, Mateus Queiroz.
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Processamento de linguagem natural Classificação de texto Modelos de linguagem grandes Dados desbalanceados Domínio jurídico Diários oficiais Natural language processing Text classification Models large language Imbalanced data Legal domain Official diaries Ciência da Computação
Link de acesso:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228
Resumo:	A Ciência Jurídica destaca-se como um campo promissor para o Processamento de Linguagem Natural, contendo informações relevantes em diversos domínios que impactam a sociedade. O presente estudo concentra-se na identificação de publicações tributárias no Diário Oficial da União (DOU) por meio de uma abordagem de classificação de texto. Durante a análise do contexto tributário no DOU, evidenciou-se o desafio de lidar com o contexto desbalanceado, além da necessidade da criação de um conjunto de dados anotado focado no domínio tributário, tendo sido empregada uma estratégia de anotação automática de registros. A utilização de Modelos de Linguagem Grandes (do inglês, Large Language Models, ou LLMs), baseados em transformers, nos experimentos conduzidos destacou a eficácia dessa abordagem na classificação de dados tributários, mesmo diante dos desafios identificados. A partir dos resultados obtidos, observou-se que manter o desbalanceamento no conjunto de dados de treinamento implicou em melhores resultados para o cenário em questão. Além disso, os resultados também indicam que os LLMs com arquitetura encoder continuam sendo uma opção eficiente, proporcionando rapidez e compatibilidade com hardware de uso geral. Esses modelos mantêm sua eficácia, mesmo em meio à tendência de preferência por LLMs com arquitetura decoder com um número cada vez maior de parâmetros, especialmente em cenários com limitações de recurso de hardware.

Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.

Registros relacionados