Recuperação de imagem com múltiplos rótulos usando hashing profundo

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Silva, Josiane Rodrigues da
Outros Autores: http://lattes.cnpq.br/1788997377079235
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.ufam.edu.br/handle/tede/9047
Resumo: Recuperação de imagem baseada em conteúdo (Content-based Image Retrieval - CBIR) é a tarefa que visa exibir, como resultado de uma busca, imagens com os mesmos conteúdos visuais de uma consulta. Esse problema tem atraído atenção crescente na área de visão computacional. Técnicas de hashing baseado em aprendizado são hoje uma das abordagens mais estudadas de pesquisa aproximada de vizinhos mais próximos para recuperação de imagens em larga escala. Com o avanço das redes neurais profundas em representação de imagem, métodos de hashing para CBIR passaram a usar aprendizado profundo no processo de construção dos códigos binários. Tais estratégias são conhecidas genericamente como técnicas de Hashing Profundo (deep hashing). Embora uma variedade de métodos tenham sido propostos para CBIR usando hashing profundo, a maioria deles propõem abordagens que tratam as imagens como descrevendo um único tópico, ou seja, associadas a um único rótulo. Contudo, em busca visual é natural que as imagens tenham vários tópicos, cada um dos quais representados por diferentes rótulos que podem estar relacionados, por exemplo, com objetos de várias categorias ou diferentes conceitos associados com as imagens. Além disso, muitos desses modelos focam exclusivamente na qualidade dos rankings gerados, ignorando questões como a eficiência da busca e do uso do espaço disponível, aspectos importantes em Recuperação de Imagem. Desta forma, esta proposta investiga técnicas de hashing profundo com o intuito de tornar a tarefa de recuperação de imagem mais eficiente mantendo a qualidade do ranking de resposta compatível com o estado-da-arte. Além disso, focamos no cenário de múltiplos rótulos com o objetivo de gerar códigos hash que representem os vários níveis de similaridade entre as imagens. Mais especificamente, ao longo desta pesquisa, propusemos e estudamos arquiteturas profundas geradoras treinadas em duplas e triplas de imagens para a tarefa de recuperação de imagens multi-rótulo. As arquiteturas usadas foram autocodificadores variacionais baseados em distribuição discreta, capazes de gerar representações compactas das imagens, diretamente aplicáveis a técnicas de hashing, sem auxílio de processos intermediários não vinculados ao treino. Ao avaliarmos os métodos propostos em duas coleções de imagens multi-rótulo, uma sintética e outra real, observamos que os modelos são capazes de gerar códigos de hash binários efetivos em termos da qualidade dos rankings criados além de eficientes em termos do uso do espaço de hashing.