A convolutional neural network with feature fusion for real-time hand posture recognition

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: CHEVTCHENKO, Sérgio Fernandovitch
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal Rural de Pernambuco
Departamento de Estatística e Informática
Brasil
UFRPE
Programa de Pós-Graduação em Informática Aplicada
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7857
Resumo: O uso de gestos de mão é uma maneira intuitiva e versátil para humanos interagirem com computadores. Este trabalho tem como foco o reconhecimento de gestos estáticos, também conhecidos como posturas de mão. Um bom sistema de reconhecimento de gestos deve suportar variações na imagem, como de escala, iluminação e rotação, além de ser capaz de funcionar em tempo real. Considerando o sucesso recente de redes neurais convolutivas e robustez de técnicas tradicionais, esta dissertação apresenta uma nova arquitetura baseada em redes convolutivas para reconhecimento de gestos com acurácia e em tempo real. A arquitetura proposta combina redes convolutivas com descritores de características tradicionais. Os hiperparâmetros que descrevem esta nova rede são selecionados de forma automática usando um algoritmo de otimização. As características tradicionais são extraídas da imagem usando momentos de Zernike, momentos de Hu, filtros de Gabor e propriedades de contorno da mão. Estas características são usadas para complementar o conjunto de informações disponível para a camada de classificação da rede convolutiva. A arquitetura proposta é comparada com modelos de redes convolutivas propostos recentemente. Para isso são usadas três bases de dados de gestos estáticos de mão. Para verificar como a representação da imagem pode influenciar nos classificadores considerados nesse trabalho, as bases de dados são subdivididas em representações por profundidade, escala de cinza e binárias. Além disso, as arquiteturas são comparadas em termos de velocidade e acurácia de classificação, usando reescalonamento com e sem preservação de aspect ratio e dois métodos de validação comumente empregados no contexto de reconhecimento de gestos: holdout e leave-one-subject-out. É demonstrado experimentalmente que a arquitetura proposta supera o estado da arte com reconhecimento de gestos em tempo real, sendo robusta em diferentes representações e escalas da imagem. Foi registrada uma melhora de até 5.93% em comparação ao melhor modelo existente em uma base de dados RGBD com 81,000 imagens e 27 classes de gestos. Além disso, é disponibilizado um vídeo demostrando reconhecimento em tempo real de até 27 gestos estáticos de mão a 30 quadros por segundo, usando uma câmera 3D.