Estratégias Lexicométricas para Detetar Especificidades Textuais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
Texto Completo: | https://doi.org/10.21814/lm.10.1.263 |
Resumo: | Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela). |
id |
RCAP_330e48b2b6185cd6cde574c5aa5f1953 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/263 |
network_acronym_str |
RCAP |
network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository_id_str |
https://opendoar.ac.uk/repository/7160 |
spelling |
Estratégias Lexicométricas para Detetar Especificidades TextuaisLexicometric strategies to detect textual specificitiesEstratégias Lexicométricas para Detetar Especificidades TextuaisKullback–Leibler divergencelexical divergencelexicometrydivergência de Kullback-Leiblerdivergência lexicallexicometriadivergencia de Kullback-Leiblerdivergência lexicallexicometriaNeste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).In this article we propose to to define and develop an automatic strategy to search for lexical specificities within sets of texts using simple lexical units and multiword expressions (MWE). We propose a methodology for calculating the divergence of lemma and MWE distributions that will automatically find differences and similarities between unlabeled texts. This methodology can be used to subsequently identify groups of texts to which quantitative and qualitative analyzes will be applied (semiautomatically and/or with human intervention). In a first test, we used two specialized texts (from the area of Paediatrics) and a literary text, assuming that the texts of specialty should present greater divergences with respect to the literary text than among themselves. As the tests that were done showed the expected trend, we decided to apply the same methodology to a second set of texts (three sets of interviews done to visitors in the city of Santiago de Compostela).Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).Universidade do Minho e Universidade de Vigo2018-08-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.10.1.263https://doi.org/10.21814/lm.10.1.263Linguamática; Vol. 10 No. 1; 19-26Linguamática; Vol. 10 Núm. 1; 19-26Linguamática; v. 10 n. 1; 19-261647-0818reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/263https://linguamatica.com/index.php/linguamatica/article/view/263/439Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simõesinfo:eu-repo/semantics/openAccessIriarte Sanromán, ÁlvaroGamallo Otero, PabloSimões, Alberto2023-09-08T13:46:37Zoai:linguamatica.com:article/263Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T11:06:28.689744Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
dc.title.none.fl_str_mv |
Estratégias Lexicométricas para Detetar Especificidades Textuais Lexicometric strategies to detect textual specificities Estratégias Lexicométricas para Detetar Especificidades Textuais |
title |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
spellingShingle |
Estratégias Lexicométricas para Detetar Especificidades Textuais Iriarte Sanromán, Álvaro Kullback–Leibler divergence lexical divergence lexicometry divergência de Kullback-Leibler divergência lexical lexicometria divergencia de Kullback-Leibler divergência lexical lexicometria |
title_short |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
title_full |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
title_fullStr |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
title_full_unstemmed |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
title_sort |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
author |
Iriarte Sanromán, Álvaro |
author_facet |
Iriarte Sanromán, Álvaro Gamallo Otero, Pablo Simões, Alberto |
author_role |
author |
author2 |
Gamallo Otero, Pablo Simões, Alberto |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Iriarte Sanromán, Álvaro Gamallo Otero, Pablo Simões, Alberto |
dc.subject.por.fl_str_mv |
Kullback–Leibler divergence lexical divergence lexicometry divergência de Kullback-Leibler divergência lexical lexicometria divergencia de Kullback-Leibler divergência lexical lexicometria |
topic |
Kullback–Leibler divergence lexical divergence lexicometry divergência de Kullback-Leibler divergência lexical lexicometria divergencia de Kullback-Leibler divergência lexical lexicometria |
description |
Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela). |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-08-04 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.10.1.263 https://doi.org/10.21814/lm.10.1.263 |
url |
https://doi.org/10.21814/lm.10.1.263 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/263 https://linguamatica.com/index.php/linguamatica/article/view/263/439 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simões info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simões |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 10 No. 1; 19-26 Linguamática; Vol. 10 Núm. 1; 19-26 Linguamática; v. 10 n. 1; 19-26 1647-0818 reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
repository.mail.fl_str_mv |
info@rcaap.pt |
_version_ |
1833591577779372032 |