Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Almeida, Lucas Barbosa de |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://hdl.handle.net/11449/234709
|
Resumo: |
Dado o crescimento vertiginoso de coleções multimídia, sejam vídeos, áudios ou imagens e a carência de dados rotulados, torna-se fundamental investigar abordagens não supervisionadas de recuperação de informação baseada no conteúdo. Considerando que informações de diferentes modalidades ou representações de um mesmo objeto tendem a ser complementares, é imprescindível explorar múltiplas modalidades no processo de recuperação de informação. Contudo, ao utilizar informações de modalidades distintas, depara-se com o desafio de como combinar as informações dessas diferentes fontes. No contexto dessa dissertação, serão investigadas abordagens de combinação utilizando múltiplos ranqueamentos por meio de métodos de aprendizado não supervisionado. De modo geral, tais métodos exploram relações contextuais entre os objetos, geralmente codificadas nas informações de similaridade das coleções, sem requerer dados rotulados ou intervenção de usuários. Além disso, foram consideradas abordagens recentes de redes convolucionais baseadas em grafos (\textit{Graph Convolutional Networks} - GCNs). O treinamento de GCNs é tradicionalmente realizado de modo que cada nó se comunica com sua vizinhança, incorporando a si informações dos nós aos quais apresenta conexões no grafo. Neste trabalho, combinamos a capacidade de métodos de aprendizado não supervisionado em explorar a geometria do conjunto de dados e definir uma medida contextual de distância com a capacidade de GCNs de criar uma representação mais eficaz de cada instância para aprimorar os resultados de recuperação de vídeos em cenários não supervisionados e multimodais. Deste modo, o trabalho apresenta um levantamento bibliográfico, discute métodos de extração de características em diferentes modalidades, e apresenta propostas de métodos para recuperação multimídia capazes de combinar as informações de diferentes modalidades em dois cenários distintos. No primeiro cenário, são propostas diferentes abordagens para recuperação de vídeos considerando informações de diferentes modalidades (imagens, áudios e vídeos) e utilizando técnicas de aprendizado não supervisionado baseadas em ranqueamento e GCNs treinadas de modo não supervisionado. No segundo cenário, é proposto um método de aprendizado de representações para recuperação de imagens baseado na fusão de representações multimodais. A representação de cada imagem é obtida através de características extraídas de uma sequência composta de sua $k$-vizinhança mais próxima, também utilizando técnicas de aprendizado não supervisionado. |