RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese

Bibliographic Details
Main Author: Garcia, Eduardo
Publication Date: 2024
Other Authors: da Silva, Nádia Félix Felipe, Gomes, Juliana, Albuquerque, Hidelberg, Souza, Ellen, Siqueira, Felipe, Lima, Eliomar, Carvalho, André
Format: Article
Language: por
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://doi.org/10.21814/lm.16.2.457
Summary: This work investigates the application of Natural Language Processing (NLP) in the legal context for the Portuguese language, emphasizing the importance of adapting pre-trained models, such as RoBERTa, from specialized corpora in the legal domain. We compiled and pre-processed a Portuguese Legal corpus, LegalPT corpus, addressing challenges of high document duplication in legal corpora, and measuring the impact of hyperparameters and embedding initialization. Experiments revealed that pre-training on legal and general data resulted in more effective models for legal tasks, with RoBERTaLexPT outperforming larger models trained on generic corpora, and other legal models from related works. We also aggregated a legal benchmark, PortuLex benchmark. This study contributes to improving NLP solutions in the Brazilian legal context, providing enhanced models, a specialized corpus, and a benchmark dataset. For reproducibility, we will make related code, data, and models available.
id RCAP_a700df5e77ab8037d095fc58ffdf48c4
oai_identifier_str oai:linguamatica.com:article/457
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for PortugueseRoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua PortuguesaRoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesalanguage modellegal domainbenchmarkmodelo de linguagemdomínio jurídicobenchmarkThis work investigates the application of Natural Language Processing (NLP) in the legal context for the Portuguese language, emphasizing the importance of adapting pre-trained models, such as RoBERTa, from specialized corpora in the legal domain. We compiled and pre-processed a Portuguese Legal corpus, LegalPT corpus, addressing challenges of high document duplication in legal corpora, and measuring the impact of hyperparameters and embedding initialization. Experiments revealed that pre-training on legal and general data resulted in more effective models for legal tasks, with RoBERTaLexPT outperforming larger models trained on generic corpora, and other legal models from related works. We also aggregated a legal benchmark, PortuLex benchmark. This study contributes to improving NLP solutions in the Brazilian legal context, providing enhanced models, a specialized corpus, and a benchmark dataset. For reproducibility, we will make related code, data, and models available.Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados.Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados.Universidade do Minho e Universidade de Vigo2024-12-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.16.2.457https://doi.org/10.21814/lm.16.2.457Linguamática; Vol. 16 No. 2; 183-200Linguamática; v. 16 n. 2; 183-200Linguamática; Vol. 16 Núm. 2; 183-2001647-0818reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/457https://linguamatica.com/index.php/linguamatica/article/view/457/527Direitos de Autor (c) 2024 Eduardo Garcia, Nádia Félix Felipe da Silva, Juliana Gomes, Hidelberg Albuquerque, Ellen Souza, Felipe Siqueira, Eliomar Lima, André Carvalhoinfo:eu-repo/semantics/openAccessGarcia, Eduardoda Silva, Nádia Félix FelipeGomes, JulianaAlbuquerque, HidelbergSouza, EllenSiqueira, FelipeLima, EliomarCarvalho, André2025-01-31T13:45:24Zoai:linguamatica.com:article/457Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T19:41:23.365335Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
title RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
spellingShingle RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
Garcia, Eduardo
language model
legal domain
benchmark
modelo de linguagem
domínio jurídico
benchmark
title_short RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
title_full RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
title_fullStr RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
title_full_unstemmed RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
title_sort RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
author Garcia, Eduardo
author_facet Garcia, Eduardo
da Silva, Nádia Félix Felipe
Gomes, Juliana
Albuquerque, Hidelberg
Souza, Ellen
Siqueira, Felipe
Lima, Eliomar
Carvalho, André
author_role author
author2 da Silva, Nádia Félix Felipe
Gomes, Juliana
Albuquerque, Hidelberg
Souza, Ellen
Siqueira, Felipe
Lima, Eliomar
Carvalho, André
author2_role author
author
author
author
author
author
author
dc.contributor.author.fl_str_mv Garcia, Eduardo
da Silva, Nádia Félix Felipe
Gomes, Juliana
Albuquerque, Hidelberg
Souza, Ellen
Siqueira, Felipe
Lima, Eliomar
Carvalho, André
dc.subject.por.fl_str_mv language model
legal domain
benchmark
modelo de linguagem
domínio jurídico
benchmark
topic language model
legal domain
benchmark
modelo de linguagem
domínio jurídico
benchmark
description This work investigates the application of Natural Language Processing (NLP) in the legal context for the Portuguese language, emphasizing the importance of adapting pre-trained models, such as RoBERTa, from specialized corpora in the legal domain. We compiled and pre-processed a Portuguese Legal corpus, LegalPT corpus, addressing challenges of high document duplication in legal corpora, and measuring the impact of hyperparameters and embedding initialization. Experiments revealed that pre-training on legal and general data resulted in more effective models for legal tasks, with RoBERTaLexPT outperforming larger models trained on generic corpora, and other legal models from related works. We also aggregated a legal benchmark, PortuLex benchmark. This study contributes to improving NLP solutions in the Brazilian legal context, providing enhanced models, a specialized corpus, and a benchmark dataset. For reproducibility, we will make related code, data, and models available.
publishDate 2024
dc.date.none.fl_str_mv 2024-12-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.16.2.457
https://doi.org/10.21814/lm.16.2.457
url https://doi.org/10.21814/lm.16.2.457
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/457
https://linguamatica.com/index.php/linguamatica/article/view/457/527
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 16 No. 2; 183-200
Linguamática; v. 16 n. 2; 183-200
Linguamática; Vol. 16 Núm. 2; 183-200
1647-0818
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833598257659379712