Etiquetagem do português clássico baseada em Corpus

Detalhes bibliográficos
Ano de defesa: 1999
Autor(a) principal: Alves, Carlos Daniel Chacur
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/
Resumo: A construção do Corpus Tycho Brahe do português histórico motivou a criação de ferramentas automáticas para a etiquetagem morfo-sintática de palavras de um texto. Para esse fim, selecionamos o método de etiquetagem de Brill por ser um dos que apresenta os melhores resultados na anotação do inglês e por ser um método de aprendizagem automática que representa o conhecimento explicitamente, sob a forma de regras claras e, portanto, de fácil compreensão. No entanto, mostramos teórica e experimentalmente que tal método não é apropriado para línguas com a riqueza morfológica do português, que requerem um grande número de etiquetas para codificação de tais informações. Para aumentar a eficiência do aprendizado das regras, propomos uma extensão ao método de Brill que impõe uma estrutura ao conjunto de etiquetas utilizado e adiciona uma fase de refinamento ao método original. Este refinamento pode ser feita de forma eficiente por não utilizar aprendizado. Apresentamos medidas e resultados obtidos com a versão atual do Corpus Tycho Brahe e discutimos os diversos problemas encontrados no desenvolvimento de nossa abordagem. Além disso, mostramos, através de uma série de experimentos, como um etiquetador morfo-sintático pode ser uma importante ferramenta para o estudo de uma língua