Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico

Brito, André de Souza

Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico

Detalhes bibliográficos
Ano de defesa:	2019
Autor(a) principal:	Brito, André de Souza
Orientador(a):	Villela, Saulo Moraes
Banca de defesa:	Bernardino, Heder Soares , Pedrini, Hélio
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação:	Programa de Pós-graduação em Ciência da Computação
Departamento:	ICE – Instituto de Ciências Exatas
País:	Brasil
Palavras-chave em Português:	Reconhecimento de ações humanas Multi-fluxo Ritmo do fluxo óptico Human action recognition Multi-stream Optical flow rhythm
Área do conhecimento CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Link de acesso:	https://repositorio.ufjf.br/jspui/handle/ufjf/12598
Resumo:	O problema de reconhecimento de ações humanas baseada em vídeos beneficiou-se significativamente do surgimento de modelos de aprendizado profundo. No entanto, este ainda ´e um problema em aberto devido `a dificuldade associada ao processo de desenvolvimento de uma solução robusta e geral neste domínio. Neste ambiente, abordar o aspecto temporal dos vídeo ´e crucial para construir modelos realistas. Um passo fundamental nessa direção ´e a seleção de características dos vídeos que retratem a complexidade das ações humanas. Com este objetivo, uma solução baseada em uma arquitetura multi-fluxo formada por redes neurais convolucionais profundas ´e proposta neste trabalho. Um esquema multi-fluxo ´e uma forma interessante de agregar informações de diferentes origens com um custo de treinamento inferior ao de outros m´métodos. Uma nova característica temporal, chamada ritmo do fluxo óptico, foi incorporada `a arquitetura para melhorar o seu desempenho. Os experimentos realizados sugerem que o ritmo do fluxo óptico ´e complementar `as outras informações geralmente usadas nessas arquiteturas, como imagens em RGB, fluxo ´optico e ritmo visual, potencializando os resultados da abordagem. Para combinar os vários fluxos de informação dessa arquitetura, ´e introduzido um novo m´método de fusão por m´média ponderada, onde os pesos dos classificadores são definidos pela meta-heurística resfriamento simulado. Além disso, ´e especificada uma nova estratégia de treinamento e teste para os dois novos fluxos introduzidos neste trabalho. Esse esquema ´e baseado na extração de m´múltiplos planos dos ritmos visuais e do fluxo óptico dos vídeos. Os resultados indicam um aumento na eficácia da arquitetura usando esta estratégia. Os experimentos realizados em dois conjuntos de dados desafiadores, UCF101 e HMDB51, demonstram que o m´método desenvolvido ´e comparável `as abordagens estado da arte.

Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico

Registros relacionados