RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
Main Author: | |
---|---|
Publication Date: | 2024 |
Other Authors: | , , , , , , |
Format: | Article |
Language: | por |
Source: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
Download full: | https://doi.org/10.21814/lm.16.2.457 |
Summary: | This work investigates the application of Natural Language Processing (NLP) in the legal context for the Portuguese language, emphasizing the importance of adapting pre-trained models, such as RoBERTa, from specialized corpora in the legal domain. We compiled and pre-processed a Portuguese Legal corpus, LegalPT corpus, addressing challenges of high document duplication in legal corpora, and measuring the impact of hyperparameters and embedding initialization. Experiments revealed that pre-training on legal and general data resulted in more effective models for legal tasks, with RoBERTaLexPT outperforming larger models trained on generic corpora, and other legal models from related works. We also aggregated a legal benchmark, PortuLex benchmark. This study contributes to improving NLP solutions in the Brazilian legal context, providing enhanced models, a specialized corpus, and a benchmark dataset. For reproducibility, we will make related code, data, and models available. |
id |
RCAP_a700df5e77ab8037d095fc58ffdf48c4 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/457 |
network_acronym_str |
RCAP |
network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository_id_str |
https://opendoar.ac.uk/repository/7160 |
spelling |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for PortugueseRoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua PortuguesaRoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesalanguage modellegal domainbenchmarkmodelo de linguagemdomínio jurídicobenchmarkThis work investigates the application of Natural Language Processing (NLP) in the legal context for the Portuguese language, emphasizing the importance of adapting pre-trained models, such as RoBERTa, from specialized corpora in the legal domain. We compiled and pre-processed a Portuguese Legal corpus, LegalPT corpus, addressing challenges of high document duplication in legal corpora, and measuring the impact of hyperparameters and embedding initialization. Experiments revealed that pre-training on legal and general data resulted in more effective models for legal tasks, with RoBERTaLexPT outperforming larger models trained on generic corpora, and other legal models from related works. We also aggregated a legal benchmark, PortuLex benchmark. This study contributes to improving NLP solutions in the Brazilian legal context, providing enhanced models, a specialized corpus, and a benchmark dataset. For reproducibility, we will make related code, data, and models available.Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados.Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados.Universidade do Minho e Universidade de Vigo2024-12-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.16.2.457https://doi.org/10.21814/lm.16.2.457Linguamática; Vol. 16 No. 2; 183-200Linguamática; v. 16 n. 2; 183-200Linguamática; Vol. 16 Núm. 2; 183-2001647-0818reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/457https://linguamatica.com/index.php/linguamatica/article/view/457/527Direitos de Autor (c) 2024 Eduardo Garcia, Nádia Félix Felipe da Silva, Juliana Gomes, Hidelberg Albuquerque, Ellen Souza, Felipe Siqueira, Eliomar Lima, André Carvalhoinfo:eu-repo/semantics/openAccessGarcia, Eduardoda Silva, Nádia Félix FelipeGomes, JulianaAlbuquerque, HidelbergSouza, EllenSiqueira, FelipeLima, EliomarCarvalho, André2025-01-31T13:45:24Zoai:linguamatica.com:article/457Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T19:41:23.365335Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
dc.title.none.fl_str_mv |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa |
title |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese |
spellingShingle |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese Garcia, Eduardo language model legal domain benchmark modelo de linguagem domínio jurídico benchmark |
title_short |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese |
title_full |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese |
title_fullStr |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese |
title_full_unstemmed |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese |
title_sort |
RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese |
author |
Garcia, Eduardo |
author_facet |
Garcia, Eduardo da Silva, Nádia Félix Felipe Gomes, Juliana Albuquerque, Hidelberg Souza, Ellen Siqueira, Felipe Lima, Eliomar Carvalho, André |
author_role |
author |
author2 |
da Silva, Nádia Félix Felipe Gomes, Juliana Albuquerque, Hidelberg Souza, Ellen Siqueira, Felipe Lima, Eliomar Carvalho, André |
author2_role |
author author author author author author author |
dc.contributor.author.fl_str_mv |
Garcia, Eduardo da Silva, Nádia Félix Felipe Gomes, Juliana Albuquerque, Hidelberg Souza, Ellen Siqueira, Felipe Lima, Eliomar Carvalho, André |
dc.subject.por.fl_str_mv |
language model legal domain benchmark modelo de linguagem domínio jurídico benchmark |
topic |
language model legal domain benchmark modelo de linguagem domínio jurídico benchmark |
description |
This work investigates the application of Natural Language Processing (NLP) in the legal context for the Portuguese language, emphasizing the importance of adapting pre-trained models, such as RoBERTa, from specialized corpora in the legal domain. We compiled and pre-processed a Portuguese Legal corpus, LegalPT corpus, addressing challenges of high document duplication in legal corpora, and measuring the impact of hyperparameters and embedding initialization. Experiments revealed that pre-training on legal and general data resulted in more effective models for legal tasks, with RoBERTaLexPT outperforming larger models trained on generic corpora, and other legal models from related works. We also aggregated a legal benchmark, PortuLex benchmark. This study contributes to improving NLP solutions in the Brazilian legal context, providing enhanced models, a specialized corpus, and a benchmark dataset. For reproducibility, we will make related code, data, and models available. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-12-31 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.16.2.457 https://doi.org/10.21814/lm.16.2.457 |
url |
https://doi.org/10.21814/lm.16.2.457 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/457 https://linguamatica.com/index.php/linguamatica/article/view/457/527 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 16 No. 2; 183-200 Linguamática; v. 16 n. 2; 183-200 Linguamática; Vol. 16 Núm. 2; 183-200 1647-0818 reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
repository.mail.fl_str_mv |
info@rcaap.pt |
_version_ |
1833598257659379712 |