Combining romance languages for semantic representation of portuguese texts
| Main Author: | |
|---|---|
| Publication Date: | 2025 |
| Format: | Master thesis |
| Language: | eng |
| Source: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
| Download full: | https://tede2.pucrs.br/tede2/handle/tede/11797 |
Summary: | With the advancement of technology, there is a growing need for machines to understand and process human language effectively. This requires capturing the semantic value of natural language, accurately identifying and interpreting diferente meanings. The lack of annotated data for Portuguese restricts model performance compared to high-resource languages. To address this, we leverage the similarities among Romance languages to augment existing data and develop a supervised model that better represents the semantics of Portuguese texts. In the STS task, which aims to determine how similar two texts are, we explore existing models and develop our own, fine-tuning and evaluating them using different data combinations. Our findings indicate that Spanish and Italian are the most suitable languages to pair with Portuguese, yielding results comparable to the state of the art. Our approach achieves results comparable to models such as BERTimbau and Jina, reaching 0.855 for Pearson and 0.317 for MSE. |
| id |
P_RS_24921cbb50d6b051cbfc30237a4e54c7 |
|---|---|
| oai_identifier_str |
oai:tede2.pucrs.br:tede/11797 |
| network_acronym_str |
P_RS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository_id_str |
|
| spelling |
Combining romance languages for semantic representation of portuguese textsCombinando linguas romanticas para representação semantica de textos em portuguêsSentence RepresentationSemantic Textual SimilarityPortugueseFamily LanguagesNatural Language ProcessingRepresentação de SentençasSimilaridade Textual SemânticaPortuguêsFamília de LínguasProcessamento de Linguagem NaturalCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOWith the advancement of technology, there is a growing need for machines to understand and process human language effectively. This requires capturing the semantic value of natural language, accurately identifying and interpreting diferente meanings. The lack of annotated data for Portuguese restricts model performance compared to high-resource languages. To address this, we leverage the similarities among Romance languages to augment existing data and develop a supervised model that better represents the semantics of Portuguese texts. In the STS task, which aims to determine how similar two texts are, we explore existing models and develop our own, fine-tuning and evaluating them using different data combinations. Our findings indicate that Spanish and Italian are the most suitable languages to pair with Portuguese, yielding results comparable to the state of the art. Our approach achieves results comparable to models such as BERTimbau and Jina, reaching 0.855 for Pearson and 0.317 for MSE.Com o avanco da tecnologia, ha uma necessidade crescente de que maquinas compreendam e processem a linguagem humana de forma eficaz. Isso requer capturar o valor semantico da linguagem, identificando e interpretando com precisao diferentes significados. A falta de dados anotados para o portugues restringe o desempenho do modelo em comparacao com idiomas que possuem bastante recursos. Para contornar essa limitacao, exploramos as semelhancas entre as línguas romanticas para aumentar os dados existentes e desenvolver um modelo supervisionado que represente melhor a semantica dos textos. Na tarefa de STS, que visa definir quao similar sao dois textos, exploramos modelos existentes e desenvolvemos outros, ajustando-os e avaliando-os usando diferentes combinacoes de dados. Nossos resultados indicam que o espanhol e o italiano sao os idiomas mais adequados para serem combinadas com o portugues, produzindo resultados comparáveis ao estado da arte. Nossa abordagem atinge resultados comparaveis modelos como BERTimbau e Jina, alcancando 0,855 pra Pearson e 0,317 pra MSE.Pontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoGriebler, Dalvan JairCV: http://lattes.cnpq.br/1989039890812573Silva, Hígor Uélinton da2025-09-19T18:26:52Z2025-03-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/11797enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2025-09-20T15:00:17Zoai:tede2.pucrs.br:tede/11797Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2025-09-20T15:00:17Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
| dc.title.none.fl_str_mv |
Combining romance languages for semantic representation of portuguese texts Combinando linguas romanticas para representação semantica de textos em português |
| title |
Combining romance languages for semantic representation of portuguese texts |
| spellingShingle |
Combining romance languages for semantic representation of portuguese texts Silva, Hígor Uélinton da Sentence Representation Semantic Textual Similarity Portuguese Family Languages Natural Language Processing Representação de Sentenças Similaridade Textual Semântica Português Família de Línguas Processamento de Linguagem Natural CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| title_short |
Combining romance languages for semantic representation of portuguese texts |
| title_full |
Combining romance languages for semantic representation of portuguese texts |
| title_fullStr |
Combining romance languages for semantic representation of portuguese texts |
| title_full_unstemmed |
Combining romance languages for semantic representation of portuguese texts |
| title_sort |
Combining romance languages for semantic representation of portuguese texts |
| author |
Silva, Hígor Uélinton da |
| author_facet |
Silva, Hígor Uélinton da |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Griebler, Dalvan Jair CV: http://lattes.cnpq.br/1989039890812573 |
| dc.contributor.author.fl_str_mv |
Silva, Hígor Uélinton da |
| dc.subject.por.fl_str_mv |
Sentence Representation Semantic Textual Similarity Portuguese Family Languages Natural Language Processing Representação de Sentenças Similaridade Textual Semântica Português Família de Línguas Processamento de Linguagem Natural CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| topic |
Sentence Representation Semantic Textual Similarity Portuguese Family Languages Natural Language Processing Representação de Sentenças Similaridade Textual Semântica Português Família de Línguas Processamento de Linguagem Natural CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| description |
With the advancement of technology, there is a growing need for machines to understand and process human language effectively. This requires capturing the semantic value of natural language, accurately identifying and interpreting diferente meanings. The lack of annotated data for Portuguese restricts model performance compared to high-resource languages. To address this, we leverage the similarities among Romance languages to augment existing data and develop a supervised model that better represents the semantics of Portuguese texts. In the STS task, which aims to determine how similar two texts are, we explore existing models and develop our own, fine-tuning and evaluating them using different data combinations. Our findings indicate that Spanish and Italian are the most suitable languages to pair with Portuguese, yielding results comparable to the state of the art. Our approach achieves results comparable to models such as BERTimbau and Jina, reaching 0.855 for Pearson and 0.317 for MSE. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-09-19T18:26:52Z 2025-03-19 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://tede2.pucrs.br/tede2/handle/tede/11797 |
| url |
https://tede2.pucrs.br/tede2/handle/tede/11797 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
| instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| instacron_str |
PUC_RS |
| institution |
PUC_RS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
| _version_ |
1850041128840069120 |