Detalhes bibliográficos
Ano de defesa: |
2018 |
Autor(a) principal: |
Fonseca, Cláudia Aparecida |
Orientador(a): |
Guelpeli, Marcus Vinícius Carvalho |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
UFVJM
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Link de acesso: |
https://acervo.ufvjm.edu.br/items/37fefe53-529e-4895-8b58-083f394407f0
|
Resumo: |
Este trabalho foi desenvolvido no Mestrado Profissional Interdisciplinar em Educação, na área de Educação e Tecnologias Aplicadas em Instituições Educacionais, cujo propósito inicial foi demonstrar a necessidade de uma estreita relação entre um sistema de anotação automática de texto com a análise do gênero do texto base. A anotação textual deve representar as mais variadas formas, níveis e modalidades de manifestação da linguagem verbal que envolve, além dos aspectos semânticos e morfossintáticos, aspectos do discurso que também podem transmitir informações. Para alcançar os objetivos propostos, na análise dos dados estruturados do gênero e na abordagem da relação entre o sistema de anotação do corpus de estudo e o processamento automático, foi proposta a criação de um modelo computacional necessário para a compilação do Corpus linguístico, especializado, representativo do gênero artigo científico. O projeto teve como objeto de estudo os elementos representativos do gênero textual artigo científico, marcados em XML, extraídos e coletados do banco de dados da Biblioteca Eletrônica SciELO. Os dados, que compuseram o corpus de estudo, foram coletados automaticamente, pré-processados, categorizados e disponibilizados em bancos de árvore, pela ferramenta computacional para a anotação textual - AnoTex, que possibilita uma visualização e interação para análises qualitativas e quantitativas dos dados coletados. Como produto final do processo de extração, obteve-se uma base de dados com as informações extraídas e estruturadas no formato XML, que delimitam e identificam as marcações do gênero em análise, disponível para várias ferramentas e aplicações. Os resultados demonstram como a categorização dos elementos constitutivos do gênero, pode condensar as informações disponíveis de forma hierarquizada e dinâmica, construídas durante a compilação. Dentre elas, foi destacada a estrutura básica do artigo científico constituída por seus elementos pré-textuais <front>, textuais <body> e pós-textuais <back>. Para a compilação, anotação, compreensão e validação do corpus, foram utilizados os conceitos de Linguística Textual, Linguística de Corpus e Processamento de Linguagem Natural. Essas áreas de conhecimento exploram as relações entre linguística e informática, tornando possível a construção de sistemas computacionais com capacidade de reconhecer, localizar e produzir informação apresentada em linguagem natural. |