Bayesian and neural ranking approaches for supporting schema references in keyword queries over relational databases

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Martins, Paulo Rodrigo Oliveira
Outros Autores: https://lattes.cnpq.br/5060411621848198, https://orcid.org/0000-0003-3995-2167
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.ufam.edu.br/handle/tede/10468
Resumo: Sistemas de Busca por Palavra-Chave em Banco de Dados Relacional (R-KwS) permitem que usuários leigos ou informais explorem e recuperem informações de bancos de dados relacionais sem precisar conhecer detalhes do esquema ou linguagens de consulta. Esses sistemas utilizam as palavras-chave da consulta de entrada, localizam os elementos do banco de dados que correspondem a essas palavras-chave e buscam maneiras de “conectar” esses elementos usando informações sobre restrições de integridade referencial, isto é, o par chave/chave estrangeira. Embora vários desses sistemas tenham sido propostos na literatura, a maioria deles suporta apenas consultas cujas palavras-chave se referem ao conteúdo do banco de dados. Poucos sistemas oferecem suporte a consultas em que as palavras-chave se referem a elementos do esquema do banco de dados. Neste trabalho, propomos o Lathe, um novo R-KwS projetado para suportar esse tipo de consulta. Para isso, primeiro generalizamos os conceitos conhecidos de Query Matches (QMs) e Candidate Joining Networks (CJNs) para lidar com palavras-chave que se referem a elementos do esquema e propomos novos algoritmos para gerá-los. Em seguida, introduzimos uma abordagem para selecionar automaticamente as CJNs que têm maior probabilidade de representar a intenção do usuário ao fazer uma consulta por palavras-chave. Nossas principais contribuições incluem um novo algoritmo de ranqueamento de QMs bayesiano, que prioriza QMs relevantes, evitando o processamento de respostas menos prováveis; um algoritmo de ranqueamento de CJNs também bayesiano que utiliza o ranqueamento de QMs para priorizar e avaliar CJNs relevantes; uma estratégia de eager evaluation que descarta CJNs espúrias logo que são criadas; e uma nova abordagem neural baseada em transformers para ranqueamento de QMs e CJNs, resultando em melhorias em métricas como recall e R@k. Apresentamos um conjunto abrangente de experimentos realizados com conjuntos de consultas e dados previamente utilizados em experimentos com sistemas e métodos de R-KwS de última geração. Nossos resultados indicam que o Lathe é capaz de lidar com uma variedade maior de consultas por palavras-chave, mantendo-se altamente eficaz, mesmo para grandes bancos de dados com esquemas complexos. Além disso, desenvolvemos o PyLatheDB, uma biblioteca Python para Busca por Palavra-Chave em Banco de Dados Relacional que implementa o Lathe.