Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Silva, Augusto Lopes da
Orientador(a): Rigo, Sandro José
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação Aplicada
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
RDF
Palavras-chave em Inglês:
RDF
Área do conhecimento CNPq:
Link de acesso: http://www.repositorio.jesuita.org.br/handle/UNISINOS/8777
Resumo: A atual consolidação e disponibilização de bases de dados abertos e conectados vem fomentando diversas iniciativas, sendo que, dentre elas, observa-se o uso do conteúdo armazenado para geração de linguagem natural. A geração de frases em linguagem natural pode ser beneficiada com o uso destas bases em pelo menos dois aspectos, que são a grande quantidade de informações disponível e a existência de anotações adicionais sobre o significado destas informações. Quanto aos recursos usados para a lexicalização das frases, os trabalhos nesta área podem ser agrupados em três categorias, sendo a primeira caracterizada pela utilização de templates para a definição da estrutura das frases, a segunda pelo uso de algoritmos de aprendizado de máquina para a geração das frases de modo não supervisionado e a terceira a utilização de ambas abordagens em um modelo híbrido. As abordagens geram resultados considerados interessantes, porém apresentam dificuldades em relação à naturalidade das sentenças geradas. Observa-se que os trabalhos relacionados ao tema não utilizam em ampla escala as informações das propriedades RDF presentes nas ontologias, fatores que podem ser considerados como apoio na geração de frases mais naturais. Dentre essas informações estão relacionamentos semânticos entre conceitos que podem ajudar a construção de sentenças em linguagem natural. Diante deste contexto, a pesquisa atual visa explorar essas propriedades para geração de linguagem natural para o idioma inglês a partir de um conjunto de templates elaborados por linguistas e do uso de recursos lexicais. Foram executados duas avaliações para ajustar critérios e variáveis para o algoritmo de geração de linguagem proposto e um terceiro para validação final da pesquisa. A primeira avaliação buscou identificar formas de geração de frases em linguagem natural a partir das propriedades RDF. Partindo da análise dos resultados da primeira avaliação, uma nova avaliação foi conduzida buscando medir a naturalidade das sentenças geradas a partir das propriedades RDF. Por fim, uma terceira avaliação foi projetada e executada, onde profissionais da linguística e nativos do idioma inglês avaliaram as frases curtas geradas pelo algoritmo. Os resultados da avaliação final foram considerados promissores para aplicações que objetivem geração de linguagem natural a partir das informações das propriedades RDF com apoio de recursos lexicais.