Indexação Eficiente de Múltiplos Espaços Métricos para Otimização de Consultas por Similaridade

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Zabot, Guilherme Felipe
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-09102020-153743/
Resumo: Com o crescente aumento na geração de dados ao longo dos últimos anos, tornou-se necessário a captura e armazenamento de grandes quantidades de dados complexos, como imagens, vídeos e áudios, que exigem ferramentas eficientes e flexíveis quando utilizados na recuperação de informações. Muitas abordagens da literatura para recuperar dados complexos seguem o paradigma de Consultas por similaridade, utilizando Métodos de Acesso Métrico (MAMs) para indexar os dados complexos e acelerar a recuperação de informações. Estes métodos indexam vetores de características, extraídos por meio da aplicação de Métodos de Extração de Características (FEMs), que representam o conteúdo intrínseco existente nos dados complexos, como cor, textura ou forma no caso de imagens. Os MAMs foram inicialmente projetados para indexar recursos de dados complexos usando apenas um FEM por vez, levando os usuários a criar vários índices quando mais de um FEM é utilizado nas consultas. Abordagens recentes que utilizam diferentes representações em uma única estrutura de índice, no geral sofrem com um grande número de cálculos de distância, causado principalmente pelo aumento no número de elementos candidatos gerados na recuperação de informações sobre os multiplos espaços métricos. De forma a solucionar este problema, neste trabalho de mestrado, propomos o MAM Spectra, que indexa dados complexos usando vários FEMs simultaneamente, e tem como objetivo principal, agilizar as consultas por similaridade sobre múltiplas representações de objetos complexos. Além disso, o MAM se baseia nas correlações existentes entre diferentes espaços para escolher os melhores FEMs para responder a cada busca, de forma a obter um espaço de indexação que reduza o número de cálculos de distância e consequentemente o tempo de execução de consultas. Nossos resultados utilizando o Spectra mostram que, para diferentes conjuntos de dados, os espaços métricos que apresentam baixa-correlação, resultam em uma redução significativa do número de elementos presentes no conjunto de elementos candidatos, enquanto preserva a qualidade da busca e reduz o tempo de consulta em até uma ordem de magnitude.