Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Tessarollo, Alexandre
Orientador(a): Rademaker, Alexandre
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Inglês:
NLP
Gas
Oil
Link de acesso: https://hdl.handle.net/10438/29846
Resumo: O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source.