Edição eletrônica para extração automática de dados linguísticos a partir de metadados em corpora eletrônicos: uma proposta de aplicação com base em uma edição semidiplomática de correspondências pessoais do século XX

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Batista, Priscila Starline Estrela Tuy
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/8/8142/tde-09012025-130006/
Resumo: Esta tese tem o objetivo de propor uma edição eletrônica de textos voltada à extração automática de dados linguísticos a partir de metadados em corpora eletrônicos, utilizando um sistema de busca flexível que pode ser aplicado a diferentes conjuntos de textos. Para tanto, foi proposto um fluxo de trabalho, organizado em duas fases de aplicação: fase preliminar – que compreende a prospecção e a digitalização dos textos, seguida pela edição semidiplomática; e fase essencial para a extração de dados – na qual ocorre a edição dos textos em linguagem XML e a aplicação do módulo de busca para a extração automática dos dados linguísticos a partir de metadados. O sistema de busca desenvolvido permite tanto pesquisas simples, por meio da busca de palavras, quanto pesquisas avançadas, utilizando a rede de ligações entre os dados extraídos. A aplicação da proposta foi feita com base na edição semidiplomática acompanha de fac-símiles da Coleção Documental Família Estrela Tuy, composta por 152 correspondências pessoais do século XX, produzidas por 49 brasileiros, nascidos entre 1890 e 1959, cuja maioria, com o local de nascimento identificado, é baiana. Além da proposta de um fluxo de trabalho replicável, o estudo discute a importância da interdisciplinaridade entre Filologia, Linguística Histórica sócio-histórica e Humanidades Digitais para a constituição e manipulação de corpora eletrônicos. A tese explora a relevância de práticas filológicas tradicionais, bem como a importância da descrição codicológica e paleográfica, aliadas ao uso de ferramentas digitais, que permitem a otimização do tempo de pesquisa e a ampliação do volume de textos acessíveis para análise. O corpus controlado utilizado nesta pesquisa, a Coleção Documental da Família Estrela Tuy, foi selecionado por sua riqueza de informações socioculturais e históricas, levantadas por meio de uma investigação exaustiva para responder às perguntas básicas da paleografia, Qué?, Cuándo?, Dónde?, Cómo?, somadas àquelas propostas por Petrucci (2003, p. 7-8): Quién lo realizo?, Para qué fue escrito ese texto. A investigação dos remetentes e destinatários foi realizada a partir de entrevistas narrativas, consultas à bibliografia disponível sobre as famílias e informações contidas nas correspondências. A edição semidiplomática desses textos, disponível no Volume II desta tese, foi elaborada com base normas propostas pelo Projeto Para a História do Português Brasileiro (PHPB). O sistema de busca e a edição eletrônica implementados neste estudo demonstram a viabilidade de realizar buscas automatizadas e a extração de dados linguísticos com eficiência, oferecendo uma solução que pode ser adaptada a outros corpora. O website desenvolvido para abrigar os textos e o sistema de busca está acessível ao público (disponível em Coleção documental da Família Estrela Tuy), contribuindo para futuras pesquisas nas áreas de Filologia, Linguística Histórica e Humanidades Digitais. Entre as perspectivas futuras, estão o desenvolvimento de novas camadas de anotação morfossintática e a criação de um manual para facilitar a replicação do método proposto em novos corpora