3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Manesco, João Renato Ribeiro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/251125
Resumo: Estimação de poses humanas em imagens monoculares é um importante e desafiador problema de Visão Computacional cujo objetivo é obter a forma do corpo de um indivíduo baseando-se em uma única imagem. Atualmente, métodos que empregam técnicas de deep learning destacam-se na tarefa de estimação de poses humanas 2D. Poses 2D podem ser utilizadas em um conjunto diverso e amplo de aplicações, de grande relevância para a sociedade. Entretanto, a utilização de poses 3D pode trazer resultados ainda mais precisos e robustos. Como rótulos referentes a poses 3D são difíceis de serem adquiridos e suas aquisições podem ser realizadas apenas em locais restritos, métodos totalmente convolucionais apresentaram desempenho insatisfatório para a tarefa. Uma estratégia para solucionar este problema consiste em utilizar estimadores de poses 2D, que já se encontram mais consolidados, para estimar poses 3D em duas etapas, a partir de poses 2D. Devido a restrições na aquisição das bases de dados, a melhora de performance desta estratégia só pode ser observada em ambientes controlados, desta forma, técnicas de adaptação de domínio podem ser aplicadas com o objetivo de melhorar a capacidade de generalização dos métodos por meio da inserção de novos ângulos de câmera e ações, advindos de domínios sintéticos. Neste trabalho, propomos um novo método, chamado de Domain Unified Approach (DUA), que visa resolver os problemas causados pela má representação de pose em cenários com domínios distintos, por meio da adição de três novos módulos ao estimador de poses: conversor de pose, estimador de incerteza e classificador de domínio. Treinado com um conjunto enorme de dados sintéticos (SURREAL) e aplicado a um conjunto de dados obtido de um cenário do mundo real (Human3.6M), nosso método DUA levou a uma redução de 44,1 mm no erro médio por posição de junta no espaço 3D, um resultado bastante competitivo com os resultados do estado da arte.