Exploiting lod-based similarity personalization strategies for recommender systems

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Silva, Gabriela Oliveira Mota da lattes
Orientador(a): Durão, Frederico Araújo lattes
Banca de defesa: Durão, Frederico Araújo lattes, Lino, Natasha Correia Queiroz lattes, Oliveira Neto, Rosalvo Ferreira de lattes, Claro, Daniela Barreiro lattes, Salvador, Laís do Nascimento lattes
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal da Bahia
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
Departamento: Instituto de Computação - IC
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufba.br/handle/ri/39279
Resumo: Dados Abertos Conectados (Linked Open Data - LOD, em Inglês) é uma nuvem de bancos de dados interconectados, de livre acesso e legíveis por máquina, pois estão disponíveis em padrões abertos da Web Semântica, como RDF e SPARQL. Um exemplo relevante de banco LOD é a DBpedia, uma iniciativa comunitária para extrair informações estruturadas da Wikipedia e disponibilizá-las abertamente na Web. O conteúdo semântico disponibilizado pelos dados abertos conectados e os recursos avançados da linguagem SPARQL permitiram o desenvolvimento de aplicativos sensíveis à semântica. Os sistemas de recomendação (em Inglês: Recommender Systems - RS) baseados em LOD geralmente aproveitam os dados de bancos LOD, e.g. DBpedia, para recomendar itens como filmes, lugares, livros e músicas aos usuários finais. Esses sistemas usam um algoritmo de similaridade semântica que calcula o grau de correspondência entre pares de recursos do grafo RDF, contando o número de links diretos e indiretos entre eles, o comprimento do caminho entre eles ou analisando a hierarquia de suas classes. Por outro lado, calcular a similaridade em grafos RDF pode ser difícil porque cada recurso pode ter centenas de links para outros nós e nem todos eles são semanticamente relevantes ou podem ser aplicados a todos os recursos do grafo. Isso pode levar ao conhecido problema de esparsidade da matriz. No entanto, é possível selecionar subconjuntos de características que são mais úteis para calcular a semelhança entre itens de um grafo, reduzindo a dimensão da matriz. Apesar de vários estudos nesse campo, ainda faltam soluções aplicadas à personalização da etapa de seleção de características (Feature Selection - FS, em Inglês). Nesse contexto, propomos estratégias personalizadas para melhorar a precisão da similaridade semântica em sistemas de recomendação baseados em LOD, incluindo i) a aplicação de uma abordagem de seleção de características para filtrar as melhores propriedades para um usuário específico; ii) a personalização do grafo RDF adicionando pesos às arestas, de acordo com as preferências anteriores do usuário; e iii) a exploração da similaridade das propriedades literais do modelo do usuário. Os experimentos de avaliação usaram dados combinados dos bancos de dados MovieLens e LastFM com os dados semânticos da DBpedia. Os resultados indicam aumentos estatisticamente significativos nas recomendações top-n em todas as métricas testadas: Precision@K (K=5, 10), Map e NDCG, em relação aos métodos de similaridade de referência não personalizados, como Linked Data Semantic Distance (LDSD) e Resource Similarity (ReSim). Os resultados mostram que as estratégias propostas neste trabalho podem ser eficientes para aprimorar sistemas de recomendação semânticos em diversos domínios do conhecimento, pois a solução é escalável para quaisquer bancos de dados baseados em LOD.