RePort: um sistema de extração aberta de informações para língua portuguesa

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Pereira, Victor dos Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/109022
Resumo: Um campo emergente de pesquisa em Processamento e Linguagem Natural (PLN) propõe Sistemas de Extração de Informações Aberta (em inglês - Open Information Extraction Systems - Open IE systems, em inglês) que têm como a principal característica não necessitar de definição a priori dos tipos de relações semânticas a serem extraídas de textos, visando padrões genéricos para a extração de quaisquer informações independente de domínio. Seguindo este paradigma, este trabalho apresenta o RePort ¿ um Sistema de Extração de Informações Aberta para Língua Portuguesa, projetado para escalar bases massivas de dados e extrair de quaisquer tipos de relações mediadas por verbo a partir de documentos textuais em português. Como contribuições secundárias deste trabalho têm-se um Golden Standard composto dos textos e suas respectivas relações semânticas anotadas; um léxico de relações verbais gerado a partir do corpus CETENFolha; e métodos genéricos para criação e evolução do léxico de relações verbais a partir de corpora ou consultas na Web. Avaliações experimentais em corpus bilíngue inglês-português evidenciou a necessidade de conhecimento linguístico para adaptar o sistema correlato em língua inglesa ¿ ReVerb. Em uma segunda análise, avaliações automáticas do RePort apontou que este obteve seus melhores resultados utilizando o léxico de relações verbais ampliado, próximo ao estado da arte, quando considerada apenas a extração de relações verbais. Por fim, cumpre salientar a importância do sistema RePort, e das demais contribuições e análises aqui apresentadas para evolução da área de Open IE system para o português. Palavras-chave: Linguística Computacional, Inteligência Artificial, Processamento de Linguagem Natural, Extração de Informações, Sistemas de Extração de Informações Aberta, Língua Portuguesa.