Identificação de tipos de relações temporais event-time em português: uma abordagem baseada em regras com classificação associativa.

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Rocha, Dárcio Santos lattes
Orientador(a): Souza, Marlo Vieira dos Santos e lattes
Banca de defesa: Souza, Marlo Vieira dos Santos e lattes, Araújo, Rerisson Cavalcante de lattes, Pita, Robespierre Dantas da Rocha lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Bahia
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
Departamento: Instituto de Computação - IC
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufba.br/handle/ri/38383
Resumo: A compreensão temporal em linguagem natural desempenha um papel fundamental na eficácia da comunicação, permitindo a compreensão da sequência e ordem dos eventos. Este estudo tem como objetivo desenvolver um método computacional para a identificação de tipos de relações temporais entre evento e expressão temporal em textos em português. A abordagem adotada baseia-se em regras e incorpora elementos linguísticos, incluindo informações lexicais, morfossintáticas e contextuais, tempos verbais de Reichenbach, sinais temporais e conhecimento prévio sobre o mundo, além das anotações TimeML presentes do corpus TimeBankPT. O método consistiu na criação de um conjunto abrangente de features relevantes, que foram utilizadas na construção de conjuntos de regras. Foram explorados algoritmos de aprendizagem de regras, como CBA, CN2, IDS e RIPPER, além de regras manuais. Os conjuntos de regras foram aplicados individualmente, bem como em combinação, aos pares compostos por evento e expressão temporal, utilizando duas estratégias de aplicação: a primeira regra acionada e um sistema de votação. Destaca-se que este é o primeiro trabalho que conhecemos a empregar técnicas de aprendizagem de regras para solucionar essa tarefa específica. Os resultados estatísticos mostraram a eficácia da abordagem baseada em regras, destacando-se o conjunto de regras gerado pelo algoritmo RIPPER, que obteve o melhor desempenho. Esse conjunto de regras superou o método de referência, alcançando uma acurácia de 69,2% e um F1-score de 66,1%. Houve um aumento significativo de 2,3 pontos percentuais em acurácia e 3,6 pontos percentuais em F1-score nos dados de teste. A aplicação dos conjuntos de regras pelo sistema de votação foi mais eficaz em dados desconhecidos. A diferença significativa entre os conjuntos de regras e o baseline utilizado destaca a importância das features adicionais empregadas pelas regras na identificação das relações temporais. Essas features forneceram informações complementares e permitiram uma análise mais precisa dos dados. Além disso, os conjuntos de regras demonstraram capacidade de generalização, capturando padrões e regularidades nos dados que podem ser aplicados a novas instâncias, possibilitando previsões precisas. Isso evidencia a utilidade e eficácia dos conjuntos de regras como uma abordagem robusta para lidar com a complexidade das relações temporais em textos. Essa pesquisa contribui para o avanço do processamento de linguagem natural, proporcionando uma compreensão aprimorada e explicável das relações temporais. Também possui aplicações práticas em áreas como descrição de cenas, compreensão de histórias, resumo de documentos, representação da estrutura temporal de prontuários médicos e análise de notícias. A continuidade desse trabalho pode desvendar novas possibilidades para a compreensão temporal em textos.