Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil

Detalhes bibliográficos
Ano de defesa: 2000
Autor(a) principal: Aires, Rachel Virgínia Xavier
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/
Resumo: A etiquetagem morfossintática é uma tarefa básica, bem conhecida e bastante explorada em diversas aplicações de Processamento de Línguas Naturais (PLN), como análise sintática e extração e recuperação de informações. Os etiquetadores para a língua inglesa atingiram um estado da arte entre 96-99% de precisão geral. Diferentemente do inglês, para o português do Brasil não foram ainda exploradas todas as técnicas para a etiquetagem, nem se atingiu a precisão dos melhores etiquetadores para a língua inglesa. Com estas motivações, quatro etiquetadores disponíveis na WWW foram treinados Unigrama (TreeTagger), Trigrama (TreeTagger), baseado em transformações (TBL) e baseado em máxima entropia (MXPOST) , e um etiquetador simbólico foi desenvolvido (PoSiTagger). Todos os etiquetadores adaptados foram treinados com um corpus com cerca de 100.000 palavras formado por textos didáticos, jornalísticos e literários, e etiquetado com o Nilc tagset. A maior precisão geral obtida foi a do MXPOST 89,66%. Foram também implementados quatorze métodos para a combinação dos etiquetadores, dos quais sete superaram a precisão do MXPOST. A maior precisão obtida com os métodos de combinação foi 90,91%. A precisão geral sofreu a influência do tamanho do corpus manualmente etiquetado disponível para treinamento, do conjunto de etiquetas e dos tipos de texto utilizados.