Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction

Tasoniero, Felipe Roque

Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	Tasoniero, Felipe Roque
Orientador(a):	Barros, Rodrigo Coelho
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Pontifícia Universidade Católica do Rio Grande do Sul
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação
Departamento:	Escola Politécnica
País:	Brasil
Palavras-chave em Português:	Aprendizado Profundo Reconstrução 3D Visão Computacional Transformers
Palavras-chave em Inglês:	Deep Learning 3D Reconstruction Computer Vision Transformers
Área do conhecimento CNPq:	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Link de acesso:	http://tede2.pucrs.br/tede2/handle/tede/10117
Resumo:	Pesquisas recentes sobre modelos de Renderização Diferenciável relacionados à reconstrução 3D de imagens utilizam modelos totalmente convolucionais para extração de features ou para o processamento de decodificação. Por outro lado, várias tarefas de visão computacional como reconhecimento visual, segmentação, geração de imagens e detecção de objetos tiveram grande melhoria de desempenho ao fazer uso de modelos baseados em self-attention, conhecidos tradicionalmente como Transformers. Devido a tal sucesso, neste trabalho pretendemos explorar quatro diferentes abordagens de modelos baseados em selfattention para reconstrução implícita de objetos 3D. Em nossa primeira abordagem, implementamos as camadas de self-attention da SAGAN junto as camadas convolucionais; em nossa segunda abordagem, implementamos o modelo patchwise self-attention para substituir completamente o codificador convolucional. Em seguida, implementamos um modelo de Transformer chamado Pyramid Vision Transformer para substituir o codificador convolucional do modelo DVR; finalmente, em nossa quarta abordagem, implementamos o modelo Nyströmformer como um otimizador para reduzir o custo computacional e para melhorar a capacidade de extração de features. Considerando todas as abordagens, nossos resultados mostraram que podemos alcançar resultados competitivos usando Transformers, bem como adicionando um otimizador para reduzir seu custo computacional. Com a aplicação do modelo de otimização e consequente redução do custo computacional, foi possível modificar o módulo referente ao decodificador de forma a melhorar os resultados de reconstrução, alcançando melhorias de até 8,5% em relação aos baselines.

Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction

Registros relacionados