Aprendizado não supervisionado para recuperação multimídia multimodal

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Almeida, Lucas Barbosa de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/234709
Resumo: Dado o crescimento vertiginoso de coleções multimídia, sejam vídeos, áudios ou imagens e a carência de dados rotulados, torna-se fundamental investigar abordagens não supervisionadas de recuperação de informação baseada no conteúdo. Considerando que informações de diferentes modalidades ou representações de um mesmo objeto tendem a ser complementares, é imprescindível explorar múltiplas modalidades no processo de recuperação de informação. Contudo, ao utilizar informações de modalidades distintas, depara-se com o desafio de como combinar as informações dessas diferentes fontes. No contexto dessa dissertação, serão investigadas abordagens de combinação utilizando múltiplos ranqueamentos por meio de métodos de aprendizado não supervisionado. De modo geral, tais métodos exploram relações contextuais entre os objetos, geralmente codificadas nas informações de similaridade das coleções, sem requerer dados rotulados ou intervenção de usuários. Além disso, foram consideradas abordagens recentes de redes convolucionais baseadas em grafos (\textit{Graph Convolutional Networks} - GCNs). O treinamento de GCNs é tradicionalmente realizado de modo que cada nó se comunica com sua vizinhança, incorporando a si informações dos nós aos quais apresenta conexões no grafo. Neste trabalho, combinamos a capacidade de métodos de aprendizado não supervisionado em explorar a geometria do conjunto de dados e definir uma medida contextual de distância com a capacidade de GCNs de criar uma representação mais eficaz de cada instância para aprimorar os resultados de recuperação de vídeos em cenários não supervisionados e multimodais. Deste modo, o trabalho apresenta um levantamento bibliográfico, discute métodos de extração de características em diferentes modalidades, e apresenta propostas de métodos para recuperação multimídia capazes de combinar as informações de diferentes modalidades em dois cenários distintos. No primeiro cenário, são propostas diferentes abordagens para recuperação de vídeos considerando informações de diferentes modalidades (imagens, áudios e vídeos) e utilizando técnicas de aprendizado não supervisionado baseadas em ranqueamento e GCNs treinadas de modo não supervisionado. No segundo cenário, é proposto um método de aprendizado de representações para recuperação de imagens baseado na fusão de representações multimodais. A representação de cada imagem é obtida através de características extraídas de uma sequência composta de sua $k$-vizinhança mais próxima, também utilizando técnicas de aprendizado não supervisionado.