[pt] ANOTADOR MORFOSSINTÁTICO PARA O PORTUGUES-TWITTER
Ano de defesa: | 2011 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
MAXWELL
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18481&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18481&idi=2 http://doi.org/10.17771/PUCRio.acad.18481 |
Resumo: | [pt] Nesta dissertação, apresentamos um processador linguístico que resolve a tarefa de Anotação morfossintática de mensagens em português postadas no Twitter. Ao analisar as mensagens escritas por brasileiros no Twitter, é fácil verificar que novos caracteres são introduzidos no alfabeto e também que novas palavras são adicionadas ao idioma. Além disso, observamos que essas mensagens são sintaticamente mal formadas. Isto impossibilita o uso nessas mensagens de diversos processadores linguísticos existentes para o português. Resolvemos esse problema considerando essas mensagens como escritas em uma nova língua, o português-twitter. O alfabeto dessa nova língua contém o alfabeto do português e o seu vocabulário contém o vocabulário da língua portuguesa. Porém, suas gramáticas são diferentes. Para construir os processadores desta nova linguagem, utilizamos a técnica de aprendizado supervisionado denominada Entropy Guided Transformation Learning (ETL). Adicionalmente, para treinar os processadores ETL, construímos um corpus anotado de mensagens em português-twitter. Não temos conhecimento da existência de outros Anotadores Morfossintáticos para o português-twitter. Porém, sabemos que, no estado-da-arte da Anotação Morfossintática para o português, a acurácia é de aproximadamente 96%, variando de acordo com o conjunto de classes escolhido. Construímos o processador composto de dois estágios, um morfológico e um contextual. Como métrica de avaliação, adotamos a acurácia, que mede quantos por cento do corpus foi anotado corretamente. Nossos resultados experimentais apresentam uma acurácia de 90,24% para o anotador proposto. Isto corresponde a um aprendizado significativo, pois o sistema inicial tem uma acurácia de apenas 76,58%. Este resultado é compatível com o aprendizado observado nos correspondentes processadores na língua portuguesa. |