A framework for exploiting open data to improve spatial keyword query applications
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , , |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal da Bahia
Instituto de Matemática e Estatística |
Programa de Pós-Graduação: |
em Ciência da Computação
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.ufba.br/ri/handle/ri/33699 |
Resumo: | Estima-se que 80% de todos os aplicativos baseados em dados possuem dados georreferenciados. Consultas espaciais são amplamente empregadas para recuperar este tipo de dado eficientemente. Entretanto, o usuário tem um papel importante no processo de recuperação dos dados georreferenciados. Um problema frequente neste cenário é quando o usuário não consegue descrever aquilo que ele deseja encontrar, dificultando a busca pelo ponto de interesse (POI) que o melhor satisfaça. Por décadas, pesquisadores propuseram técnicas para auxiliar usuários a expressar as suas necessidades. Dentre estas técnicas, pode-se citar os modelos booleanos, correspondência de padrões e expansão de consulta. Apesar da existência de alternativas importantes, faltam soluções que auxiliem o/a usuário/a a utilizar consultas do tipo preferencial que utilizem palavras-chave. O top-k Spatial Keyword Preference Query (SKPQ) é uma consulta deste tipo que surge como uma solução potencial para auxiliar usuários a encontrar POIs. O SKPQ seleciona POIs considerando a descrição de locais na vizinhança. Em essência, o usuário define uma restrição espacial (i.e. raio) e textual (i.e. palavras-chave) a ser satisfeita. Nesse contexto, esta tese propõe estratégias para melhorar a recuperação de informação proporcionada pela SKPQ e consultas similares. A contribuição desta tese pode ser dividida em três etapas. Na primeira, dois repositórios Linked Open Data (LOD) são explorados para melhorar a descrição dos POIs e suas vizinhanças. A descrição do POI no LOD contém mais informação do que nos bancos de dados espaciais tradicionais, o que resulta em uma descrição mais detalhada. Na segunda etapa, os resultados da consulta são personalizados para apresentar os melhores POIs para o usuário nas primeiras posições do rank. Ao explorar comentários relacionados aos POIs, o sistema identifica o objeto que melhor satisfaz a usuária da consulta e reordena o rank de acordo com a preferência dela. Na terceira etapa, utilizamos uma função probabilística para descrever a preferência por POIs próximos um do outro. Esta função probabilística é incorporada à função de ranqueamento para que a busca também considere esta preferência. Por fim, avaliou-se separadamente cada estratégia proposta nesta tese. A primeira estratégia alcançou melhora de 20% no Normalized Discounted Cumulative Gain (NDCG) ao utilizar palavras-chave aleatórias. Assim como encontrou POIs onde não era possível encontrar com a SKPQ. A segunda estratégia adiciona melhora de 92% no NDCG. Enquanto, a terceira estratégia melhora a consistência do rank, alcançando aumento no coeficiente Tau de 52%. Os resultados alcançados foram obtidos através de experimentos offline, utilizando dados de usuários reais em bases de dados públicas. |