Verbal lemmatization and featurization of portuguese with ambiguity resolution in context

Detalhes bibliográficos
Autor(a) principal: Nunes, Filipe Varela
Data de Publicação: 2007
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: http://hdl.handle.net/10451/4982
Resumo: Trabalho de projecto de mestrado, Engenharia Informática, Universidade de Lisboa, Faculdade de Ciências, 2007
id RCAP_13d1a3e827d4ea7e01d605e60b7ae8a7
oai_identifier_str oai:repositorio.ulisboa.pt:10451/4982
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Verbal lemmatization and featurization of portuguese with ambiguity resolution in contextProcessamento de linguagem naturalLematizaçãoConjugaçãoMorfologiaDesambiguaçãoTrabalhos de projecto de mestrado - 2007Trabalho de projecto de mestrado, Engenharia Informática, Universidade de Lisboa, Faculdade de Ciências, 2007Nas interacções linguísticas do dia-a-dia, os seres humanos estão constantemente a fazer lematização verbal por forma a processar correctamente a informação que lhes e transmitida por intermédio da linguagem natural, em particular a quer e veiculada por expressões de natureza verbal. Este procedimento consiste em descobrir a forma infinitiva dos verbos. A lematização verbal e um processo de complexidade variável, dependendo da língua natural que esteja a ser usada. Em algumas línguas (como o ingles), esse processo e bastante simples, enquanto que noutras esse processo de maior complexidade. O português é uma das línguas em que esse processo é bastante complexo. Essa complexidade está em relação directa com a riqueza do sistema de flexão verbal, uma característica partilhada com outras línguas cuja sua origem e o Latim, por exemplo. Em termos do processamento computacional do português, a complexidade do sistema de flexão verbal da língua portuguesa reflecte-se na importância da criação de ferramentas automáticas para desempenharem a tarefa de lematização. O presente documento apresenta o trabalho desenvolvido na criação de uma ferramenta automática que permite a lematização verbal do português. Esta ferramenta lida com os dois aspectos chave da linguagem natural que são críticos para o processamento computacional - a ambiguidade e a novidade – na forma elas assumem nesta tarefa especifica de lematização verbal: determinação da asserção flexional que uma expressão verbal ambígua acontece formar um determinado contexto de ocorrência (resolução da ambiguidade); determinação das acepções flexionais veiculadas por uma expressão verbal desconhecida do sistema (acomodação da novidade). Este documento começa com uma introdução (Cap. 1) na qual e descrito de forma genérica o problema a resolver e as motivações para a sua resolução. Neste primeiro capitulo e também apresentado o enquadramento institucional em que o trabalho foi desenvolvido e a estrutura do resto do documento. Segue-se um capitulo (Cap. 2) onde são apresentados com todo o pormenor o problema a resolver assim como os objectivos que se visou cumprir com o trabalho. Aqui e apresentada uma descrição dos mecanismos de conjugação, lematização e traçamento verbais e a forma como os clíticos interagem com as formas verbais. Inicialmente são descritos os elementos que constituem um traço de flexão, indicando-se como esses elementos se podem combinar entre si para formar um traço de flexão, sendo apresentado um quadro com todos os traços existentes no português. E indicado como diferentes formas verbais formam tempos compostos. São também abordados os verbos defectivos, indicam-se os diferentes tipos de verbos defectivos existentes e quais os traços de flexão que cada um possui. E ainda indicado a constituição dos lemas, assim como a sua classificação consoante a sua vogal temática. Ainda neste capitulo e apresentada a forma como o problema da conjugação verbal está apresentado nos dicionários de verbos. É indicado o que são e como funcionam as tabelas de conjugação. É identificado o que é um paradigma de conjugação, o que são verbos modelo, e como estes podem ser usados para construir as tabelas de conjugação de outros verbos. É mostrado como a substituição de terminações no lema permite a formação de formas flexionadas desse lema (regras de conjugação), e quais as diferentes características que elas tem relativamente aos verbos regulares, irregulares e pseudo-irregulares. Este capitulo continua com a descrição de como funciona o processo de lematização verbal, e como é possível a angariação das regras de lematização a partir das regras de conjugação sendo também introduzida a problemática da ambiguidade verbal, mostrando-se como podem surgir ambiguidades durante o processo de lematização. É igualmente apresentado o processo de traçamento verbal e as suas semelhanças de funcionamento com o processo de lematização. Após a descrição destes processos, são apresentados os pronomes clíticos, sendo descritas as três possíveis forma de colocação em relação ao verbo e em que situações elas podem ocorrer. É indicada uma classificação em três grupos, que será seguida durante o trabalho e a forma como os clíticos correspondente a cada grupo interagem entre si para formar uma sequência de cliticos. São também abordados os possíveis casos de ambiguidade provocados pela presença de clíticos. O capítulo 2 termina com a descrição dos desafios que tiveram de ser superados durante a realização das tarefas propostas. Segue-se (Cap. 3) uma descrição de trabalhos realizados com alguma relação com a lematização verbal automática, realizados tanto para o português como para outras línguas. No capitulo seguinte (Cap. 4) é apresentado o algoritmo de lematização e traçamento e a implementação de uma ferramenta que efectua lematização e traçamento verbal de base. A ferramenta devolve vários tuplos compostos por um lema e um traço verbal. São descritas as diversas listas necessárias a sua implementação, bem como as estruturas que foram utilizadas para as guardar. Após a descrição dessa ferramenta é mostrado como ela fui utilizada para a criação de um serviço online de lematização e traçamento verbal do português. É apresentada uma descrição da interface desse servico e a forma como os resultados são apresentados. São descritos os desafios adicionais inerentes a uma versão online. É feita uma descrição detalhada da implementação de um algoritmo que faz validação prévia do input introduzido pelo utilizador, identificação de formas verbais e clíticos, separação de sequência de clíticos, identificação da colocação da sequência de clíticos, validação das regras relativas aos clíticos e reconstituição da forma verbal. É também indicado como é feito o tratamento dos tempos compostos. Depois de descrita a implementação do serviço online é indicado o teste que foi feito para verificar a fiabilidade da ferramenta desenvolvida, e como esse teste foi usado para obter versões corrigidas. Segue-se a apresentação de um estudo sobre a ambiguidade verbal (Cap. 5). No estudo são indicados os diferentes tipos de ambiguidade verbal e são apresentados os valores que quantificam a sua cobertura no léxico e num corpus. Para que a questão da ambiguidade possa ser resolvida, e necessário que o lematizador seja aplicado expressões verbais que ocorrem em texto corrido e não apenas a uma expressão verbal isolada. No entanto, há que saber quais são as formas verbais presentes no texto que se pretende analisar. É então que são indicadas as ferramentas que são aplicadas ao texto antes que este chegue ao lematizador verbal. São explicadas as etiquetas morfo-sintácticas que identificam formas verbais, sendo indicado as restrições que devem ser impostas a nível de lematização e traçamento dessa forma, e o formato com que elas são apresentadas para o lematizador assim como o esperado formato de saáda. Por fim, é explicada a forma como os clíticos se encontram assinalados, e a maneira como essa informação é tratada por forma a que possam ser aplicadas restrições aos resultados a obter. De seguida são descritos os algoritmos alternativos, implementados para a tarefa de desambiguação do traço de flexão verbal. É descrito o funcionamento de cada algoritmo e a forma como foram implementados. É apresentado uma análise dos resultados obtidos com os diferentes algoritmos. Após ter sido feito uma análise comparativa para a tarefa de desambiguação de traços de flexão, é feita análise similar para os lemas verbais, onde são indicadas as alterações que os algoritmos sofreram por forma a suportar a tarefa de lematização. Finalmente, são comparados os resultados das duas tarefas (lematização e traçamento) entre os diferentes algoritmos. Os resultados da avaliação do algoritmo com melhor desempenho são então comparados com trabalhos similares com resultados publicados, donde se conclui que, com o presente trabalho se conseguiu notoriamente fazer avançar o estado da arte neste domínio. Por fim, é feita uma análise dos erros mais frequentes cometidos pela ferramenta. Finalmente, é apresentado um resumo das ferramentas resultantes do trabalho realizado (Cap. 6). É também resumido a problemática da ambiguidade verbal, bem como os resultados de cada uma das diferentes abordagens para resolver o problema. É feito uma comparação resumida com os trabalhos anteriores que são comparáveis, e finalmente são depois apresentadas várias linhas de orientação para trabalho futuro.In its daily interaction among each other, humans are constantly performing verbal lemmatization in order to correctly process information transmitted by means of natural language, in particular the ones conveyed by the verbal expression. The complexity of the process varies from language to language, depending on the complexity of their verbal inflection system. This document presents the work undertaken to develop an automatic verbal lemmatizer and featurizer capable of working with new verb forms and being able to perform disambiguation in context. Initially, the problem is presented and major goals are identified (chap. 1). After that, it is provided a linguistic description of how the conjugation and lemmatization process works (chap. 2), including a detailed description of how clitics can interact with a verb form. After reviewing other related works done in this domain, for Portuguese and other languages (chap. 3), there is a description of the implementation of a tool capable of lemmatizing and featurizing a single verb form, and the online service supported by it (chap. 4). After describing how to lemmatize a single verb form, this document approaches the verbal disambiguation problem, where three algorithms are described, and their evaluation results presented (chap. 5). Finally, this dissertation closes with a conclusion where the work is summarized and hints for future work are suggested (chap. 6).Branco, António H., 1963-Repositório da Universidade de LisboaNunes, Filipe Varela2012-01-26T13:23:53Z20072007-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/4982enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-17T12:49:34Zoai:repositorio.ulisboa.pt:10451/4982Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T02:28:47.989639Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
title Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
spellingShingle Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
Nunes, Filipe Varela
Processamento de linguagem natural
Lematização
Conjugação
Morfologia
Desambiguação
Trabalhos de projecto de mestrado - 2007
title_short Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
title_full Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
title_fullStr Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
title_full_unstemmed Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
title_sort Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
author Nunes, Filipe Varela
author_facet Nunes, Filipe Varela
author_role author
dc.contributor.none.fl_str_mv Branco, António H., 1963-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Nunes, Filipe Varela
dc.subject.por.fl_str_mv Processamento de linguagem natural
Lematização
Conjugação
Morfologia
Desambiguação
Trabalhos de projecto de mestrado - 2007
topic Processamento de linguagem natural
Lematização
Conjugação
Morfologia
Desambiguação
Trabalhos de projecto de mestrado - 2007
description Trabalho de projecto de mestrado, Engenharia Informática, Universidade de Lisboa, Faculdade de Ciências, 2007
publishDate 2007
dc.date.none.fl_str_mv 2007
2007-01-01T00:00:00Z
2012-01-26T13:23:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/4982
url http://hdl.handle.net/10451/4982
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833601373756719104