A corpus-based study of hyphenated premodifiers in complex NPs in biology research articles

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Elisa Mattos de Sá
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
FALE - FACULDADE DE LETRAS
Programa de Pós-Graduação em Estudos Linguísticos
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/34956
https://orcid.org/0000-0002-4787-1837
Resumo: Esta dissertação objetiva investigar sintagmas nominais complexos em textos especializados produzidos em inglês. Especificamente, esta pesquisa visa examinar o uso de modificadores pré-nominais hifenizados em artigos acadêmicos de Biologia. Segundo Biber e Gray (2016), Gray (2015), Pirrelli, Guevara e Baroni (2010) e Biber et al (1999), a escrita científica tende a ser caracterizada por construções nominais complexas, compactadas, dado seu forte potencial de compactação (BIBER; GRAY, 2016; GRAY, 2015; HERRERO-ZORITA; SANDOVAL, 2016). Isso pode ser vantajoso para a escrita de textos restritos em número de palavras ou páginas. Conforme os princípios básicos da Linguística de Corpus (SINCLAIR, 2005; SARDINHA, 2004; LÜDELING; KYTÖ, 2008; GRIES, 2009; McENERY; HARDIE, 2012; DAVIES, 2015) e com base na concepção de English as a Lingua Franca (JENKINS, 2013; JENKINS; LEUNG, 2013; MAURANEN; HYNNINEN; RANTA, 2016; SEIDLHOFER, 2013) este estudo utiliza textos autênticos cuidadosamente compilados para ser processados e tratados computacionalmente. Para tanto, um corpus de 250 artigos de Biologia foi compilado com base em cinco periódicos de alto impacto, totalizando 1.294.161 tokens distribuídos em textos de 3.500 e 7.500 palavras, publicados entre 2015 a 2019. Para a compilar os artigos automaticamente, uma extensão computacional foi desenvolvida. Softwares de Processamento da Linguagem Natural (PLN) foram empregados na extração e análise dos dados, conforme as diretrizes de Constituency e Dependency Grammar (JURAFSKY; MARTIN, 2019), em forte diálogo com a Linguística Computational. A análise voltou-se para a frequência e distribuição dos sintagmas nominais complexos extraídos e para um total de 5.789 sintagmas complexos com pré-modificados hifenizados, todos etiquetados morfossintaticamente de forma manual. Os resultados confirmam preferência por estruturas compactas como substantivos compostos, hifenização e acrônimos, verificadas estatisticamente, evidenciando a escrita científica como mais compactada e menos explícita gramatical e semanticamente, em inglês. Em situações de co-ocorrência, pré-modificadores hifenizados são favorecidos.