Export Ready — 

O Forro: a construção de um corpus

Bibliographic Details
Main Author: Tiny, Abigail
Publication Date: 2012
Other Authors: Amaro, Haldane, Hendrickx, Iris, Hagemeijer, Tjerk
Language: por
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10071/4038
Summary: Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.
id RCAP_72a167e1c1d52e71bfefb861cf89b4e5
oai_identifier_str oai:repositorio.iscte-iul.pt:10071/4038
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling O Forro: a construção de um corpusSão ToméCriouloForro (santome)Corpus linguísticoNormalizaçãoAnotaçãoCreoleLinguistic corpusNormalizationAnnotationEste trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.This paper presents the process of building a corpus of spoken and written material of forro (santome), a Portuguese-related creole spoken on the island of S. Tomé (Gulf of Guinea, Africa). The corpus comprises data from the second half of the 19th century until the present. We address the usual difficulties related to non-official languages that are predominantly spoken, such as orthographic normalization and a relatively small data set. For the corpus compilation we followed corpus linguistics standards and used UTF-8 character encoding and XML to encode meta information. We also present a POS-tag set developed for forro that will be used to annotate the data with linguistic information.Instituto Universitário de Lisboa (ISCTE-IUL), Centro de Estudos Africanos (CEA-IUL)2012-11-07T12:41:01Z2012-11-01T00:00:00Z2012-11book partinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://hdl.handle.net/10071/4038por978-989-732-089-7Tiny, AbigailAmaro, HaldaneHendrickx, IrisHagemeijer, Tjerkinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-07-07T03:31:56Zoai:repositorio.iscte-iul.pt:10071/4038Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T18:26:37.044232Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv O Forro: a construção de um corpus
title O Forro: a construção de um corpus
spellingShingle O Forro: a construção de um corpus
Tiny, Abigail
São Tomé
Crioulo
Forro (santome)
Corpus linguístico
Normalização
Anotação
Creole
Linguistic corpus
Normalization
Annotation
title_short O Forro: a construção de um corpus
title_full O Forro: a construção de um corpus
title_fullStr O Forro: a construção de um corpus
title_full_unstemmed O Forro: a construção de um corpus
title_sort O Forro: a construção de um corpus
author Tiny, Abigail
author_facet Tiny, Abigail
Amaro, Haldane
Hendrickx, Iris
Hagemeijer, Tjerk
author_role author
author2 Amaro, Haldane
Hendrickx, Iris
Hagemeijer, Tjerk
author2_role author
author
author
dc.contributor.author.fl_str_mv Tiny, Abigail
Amaro, Haldane
Hendrickx, Iris
Hagemeijer, Tjerk
dc.subject.por.fl_str_mv São Tomé
Crioulo
Forro (santome)
Corpus linguístico
Normalização
Anotação
Creole
Linguistic corpus
Normalization
Annotation
topic São Tomé
Crioulo
Forro (santome)
Corpus linguístico
Normalização
Anotação
Creole
Linguistic corpus
Normalization
Annotation
description Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.
publishDate 2012
dc.date.none.fl_str_mv 2012-11-07T12:41:01Z
2012-11-01T00:00:00Z
2012-11
dc.type.driver.fl_str_mv book part
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10071/4038
url http://hdl.handle.net/10071/4038
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 978-989-732-089-7
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Universitário de Lisboa (ISCTE-IUL), Centro de Estudos Africanos (CEA-IUL)
publisher.none.fl_str_mv Instituto Universitário de Lisboa (ISCTE-IUL), Centro de Estudos Africanos (CEA-IUL)
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833597417241444352