Sketch-Based multimodal image retrieval using deep learning

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Berno, Brenda Cinthya Solari lattes
Orientador(a): Lopes, Heitor Silverio lattes
Banca de defesa: Gabardo, Ademir Cristiano lattes, Lopes, Heitor Silverio lattes, Dorini, Leyza Elmeri Baldo lattes, Ribeiro, Manasses lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Curitiba
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/25496
Resumo: O crescimento constante dos dados multimídia gerados todos os dias torna cada vez mais difícil recuperá-los. O Google é conhecido por fazer um bom trabalho de recuperação de documentos pesquisando correspondências de palavras-chave. No entanto, os dados multimídia dificilmente contêm palavras-chave que os identificam. O objetivo principal deste trabalho é recuperar uma imagem fotográfica usando outra modalidade diferente da foto, tal como um esboço. Um esboço é diferente de uma foto pois é um conjunto de linhas desenhadas a mão, e cores e textura são perdidos, quando comparado com uma foto que é uma representação visual mais complexa representando o mundo real. O estudo de caso para o método proposto é a recuperação de fotos de tatuagens com base em esboços. Devido à falta de dados adequados para este estudo, foi criado um novo conjunto de dados de esboços e imagens de tatuagens. O modelo proposto consiste de uma rede neural siamesa que recebe como entrada características visuais, previamente extraídas de cada modalidade, para aprender uma representação ótima para fotos e esboços dentro de um espaço incorporado, onde a imagem de uma classe está próxima ao esboço da mesma classe. Duas funções de custo foram testadas, e os experimentos mostraram que, para a recuperação de imagens, a função de perda de contraste obteve melhores resultados do que a função de perda tripla. Embora a quantidade de dados fosse limitada, nos experimentos de recuperação de imagens foi alcançada a precisão de 85% para nosso conjunto de dados no top-5 e 85% para Sketchy no top-10. Foi observado que os resultados da recuperação dependem muito da qualidade e diversidade dos dados usados para treinamento da rede, especialmente a respeito da recuperação baseada em esboços, a qual, por sua vez, depende da habilidade de desenhar do usuário. De maneira geral, os métodos propostos são promissores para o problema, e os resultados encorajam a continuidade da pesquisa. Trabalhos futuros incluirão a extensão do conjunto de dados proposto (imagens de tatuagens e esboços) e, também, experimentos com outras modalidades.