O Forro: a construção de um corpus
Autor(a) principal: | |
---|---|
Data de Publicação: | 2012 |
Outros Autores: | , , |
Idioma: | por |
Título da fonte: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
Texto Completo: | http://hdl.handle.net/10071/4038 |
Resumo: | Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística. |
id |
RCAP_72a167e1c1d52e71bfefb861cf89b4e5 |
---|---|
oai_identifier_str |
oai:repositorio.iscte-iul.pt:10071/4038 |
network_acronym_str |
RCAP |
network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository_id_str |
https://opendoar.ac.uk/repository/7160 |
spelling |
O Forro: a construção de um corpusSão ToméCriouloForro (santome)Corpus linguísticoNormalizaçãoAnotaçãoCreoleLinguistic corpusNormalizationAnnotationEste trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.This paper presents the process of building a corpus of spoken and written material of forro (santome), a Portuguese-related creole spoken on the island of S. Tomé (Gulf of Guinea, Africa). The corpus comprises data from the second half of the 19th century until the present. We address the usual difficulties related to non-official languages that are predominantly spoken, such as orthographic normalization and a relatively small data set. For the corpus compilation we followed corpus linguistics standards and used UTF-8 character encoding and XML to encode meta information. We also present a POS-tag set developed for forro that will be used to annotate the data with linguistic information.Instituto Universitário de Lisboa (ISCTE-IUL), Centro de Estudos Africanos (CEA-IUL)2012-11-07T12:41:01Z2012-11-01T00:00:00Z2012-11book partinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://hdl.handle.net/10071/4038por978-989-732-089-7Tiny, AbigailAmaro, HaldaneHendrickx, IrisHagemeijer, Tjerkinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-07-07T03:31:56Zoai:repositorio.iscte-iul.pt:10071/4038Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T18:26:37.044232Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
dc.title.none.fl_str_mv |
O Forro: a construção de um corpus |
title |
O Forro: a construção de um corpus |
spellingShingle |
O Forro: a construção de um corpus Tiny, Abigail São Tomé Crioulo Forro (santome) Corpus linguístico Normalização Anotação Creole Linguistic corpus Normalization Annotation |
title_short |
O Forro: a construção de um corpus |
title_full |
O Forro: a construção de um corpus |
title_fullStr |
O Forro: a construção de um corpus |
title_full_unstemmed |
O Forro: a construção de um corpus |
title_sort |
O Forro: a construção de um corpus |
author |
Tiny, Abigail |
author_facet |
Tiny, Abigail Amaro, Haldane Hendrickx, Iris Hagemeijer, Tjerk |
author_role |
author |
author2 |
Amaro, Haldane Hendrickx, Iris Hagemeijer, Tjerk |
author2_role |
author author author |
dc.contributor.author.fl_str_mv |
Tiny, Abigail Amaro, Haldane Hendrickx, Iris Hagemeijer, Tjerk |
dc.subject.por.fl_str_mv |
São Tomé Crioulo Forro (santome) Corpus linguístico Normalização Anotação Creole Linguistic corpus Normalization Annotation |
topic |
São Tomé Crioulo Forro (santome) Corpus linguístico Normalização Anotação Creole Linguistic corpus Normalization Annotation |
description |
Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística. |
publishDate |
2012 |
dc.date.none.fl_str_mv |
2012-11-07T12:41:01Z 2012-11-01T00:00:00Z 2012-11 |
dc.type.driver.fl_str_mv |
book part |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10071/4038 |
url |
http://hdl.handle.net/10071/4038 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
978-989-732-089-7 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Instituto Universitário de Lisboa (ISCTE-IUL), Centro de Estudos Africanos (CEA-IUL) |
publisher.none.fl_str_mv |
Instituto Universitário de Lisboa (ISCTE-IUL), Centro de Estudos Africanos (CEA-IUL) |
dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
repository.mail.fl_str_mv |
info@rcaap.pt |
_version_ |
1833597417241444352 |