Combining romance languages for semantic representation of portuguese texts

Bibliographic Details
Main Author: Silva, Hígor Uélinton da
Publication Date: 2025
Format: Master thesis
Language: eng
Source: Biblioteca Digital de Teses e Dissertações da PUC_RS
Download full: https://tede2.pucrs.br/tede2/handle/tede/11797
Summary: With the advancement of technology, there is a growing need for machines to understand and process human language effectively. This requires capturing the semantic value of natural language, accurately identifying and interpreting diferente meanings. The lack of annotated data for Portuguese restricts model performance compared to high-resource languages. To address this, we leverage the similarities among Romance languages to augment existing data and develop a supervised model that better represents the semantics of Portuguese texts. In the STS task, which aims to determine how similar two texts are, we explore existing models and develop our own, fine-tuning and evaluating them using different data combinations. Our findings indicate that Spanish and Italian are the most suitable languages to pair with Portuguese, yielding results comparable to the state of the art. Our approach achieves results comparable to models such as BERTimbau and Jina, reaching 0.855 for Pearson and 0.317 for MSE.
id P_RS_24921cbb50d6b051cbfc30237a4e54c7
oai_identifier_str oai:tede2.pucrs.br:tede/11797
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Combining romance languages for semantic representation of portuguese textsCombinando linguas romanticas para representação semantica de textos em portuguêsSentence RepresentationSemantic Textual SimilarityPortugueseFamily LanguagesNatural Language ProcessingRepresentação de SentençasSimilaridade Textual SemânticaPortuguêsFamília de LínguasProcessamento de Linguagem NaturalCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOWith the advancement of technology, there is a growing need for machines to understand and process human language effectively. This requires capturing the semantic value of natural language, accurately identifying and interpreting diferente meanings. The lack of annotated data for Portuguese restricts model performance compared to high-resource languages. To address this, we leverage the similarities among Romance languages to augment existing data and develop a supervised model that better represents the semantics of Portuguese texts. In the STS task, which aims to determine how similar two texts are, we explore existing models and develop our own, fine-tuning and evaluating them using different data combinations. Our findings indicate that Spanish and Italian are the most suitable languages to pair with Portuguese, yielding results comparable to the state of the art. Our approach achieves results comparable to models such as BERTimbau and Jina, reaching 0.855 for Pearson and 0.317 for MSE.Com o avanco da tecnologia, ha uma necessidade crescente de que maquinas compreendam e processem a linguagem humana de forma eficaz. Isso requer capturar o valor semantico da linguagem, identificando e interpretando com precisao diferentes significados. A falta de dados anotados para o portugues restringe o desempenho do modelo em comparacao com idiomas que possuem bastante recursos. Para contornar essa limitacao, exploramos as semelhancas entre as línguas romanticas para aumentar os dados existentes e desenvolver um modelo supervisionado que represente melhor a semantica dos textos. Na tarefa de STS, que visa definir quao similar sao dois textos, exploramos modelos existentes e desenvolvemos outros, ajustando-os e avaliando-os usando diferentes combinacoes de dados. Nossos resultados indicam que o espanhol e o italiano sao os idiomas mais adequados para serem combinadas com o portugues, produzindo resultados comparáveis ao estado da arte. Nossa abordagem atinge resultados comparaveis modelos como BERTimbau e Jina, alcancando 0,855 pra Pearson e 0,317 pra MSE.Pontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoGriebler, Dalvan JairCV: http://lattes.cnpq.br/1989039890812573Silva, Hígor Uélinton da2025-09-19T18:26:52Z2025-03-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/11797enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2025-09-20T15:00:17Zoai:tede2.pucrs.br:tede/11797Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2025-09-20T15:00:17Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv Combining romance languages for semantic representation of portuguese texts
Combinando linguas romanticas para representação semantica de textos em português
title Combining romance languages for semantic representation of portuguese texts
spellingShingle Combining romance languages for semantic representation of portuguese texts
Silva, Hígor Uélinton da
Sentence Representation
Semantic Textual Similarity
Portuguese
Family Languages
Natural Language Processing
Representação de Sentenças
Similaridade Textual Semântica
Português
Família de Línguas
Processamento de Linguagem Natural
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Combining romance languages for semantic representation of portuguese texts
title_full Combining romance languages for semantic representation of portuguese texts
title_fullStr Combining romance languages for semantic representation of portuguese texts
title_full_unstemmed Combining romance languages for semantic representation of portuguese texts
title_sort Combining romance languages for semantic representation of portuguese texts
author Silva, Hígor Uélinton da
author_facet Silva, Hígor Uélinton da
author_role author
dc.contributor.none.fl_str_mv Griebler, Dalvan Jair
CV: http://lattes.cnpq.br/1989039890812573
dc.contributor.author.fl_str_mv Silva, Hígor Uélinton da
dc.subject.por.fl_str_mv Sentence Representation
Semantic Textual Similarity
Portuguese
Family Languages
Natural Language Processing
Representação de Sentenças
Similaridade Textual Semântica
Português
Família de Línguas
Processamento de Linguagem Natural
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
topic Sentence Representation
Semantic Textual Similarity
Portuguese
Family Languages
Natural Language Processing
Representação de Sentenças
Similaridade Textual Semântica
Português
Família de Línguas
Processamento de Linguagem Natural
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description With the advancement of technology, there is a growing need for machines to understand and process human language effectively. This requires capturing the semantic value of natural language, accurately identifying and interpreting diferente meanings. The lack of annotated data for Portuguese restricts model performance compared to high-resource languages. To address this, we leverage the similarities among Romance languages to augment existing data and develop a supervised model that better represents the semantics of Portuguese texts. In the STS task, which aims to determine how similar two texts are, we explore existing models and develop our own, fine-tuning and evaluating them using different data combinations. Our findings indicate that Spanish and Italian are the most suitable languages to pair with Portuguese, yielding results comparable to the state of the art. Our approach achieves results comparable to models such as BERTimbau and Jina, reaching 0.855 for Pearson and 0.317 for MSE.
publishDate 2025
dc.date.none.fl_str_mv 2025-09-19T18:26:52Z
2025-03-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://tede2.pucrs.br/tede2/handle/tede/11797
url https://tede2.pucrs.br/tede2/handle/tede/11797
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1850041128840069120