Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
Brito, André de Souza
 |
Orientador(a): |
Villela, Saulo Moraes
 |
Banca de defesa: |
Bernardino, Heder Soares
,
Pedrini, Hélio
 |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Juiz de Fora (UFJF)
|
Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação
|
Departamento: |
ICE – Instituto de Ciências Exatas
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufjf.br/jspui/handle/ufjf/12598
|
Resumo: |
O problema de reconhecimento de ações humanas baseada em vídeos beneficiou-se significativamente do surgimento de modelos de aprendizado profundo. No entanto, este ainda ´e um problema em aberto devido `a dificuldade associada ao processo de desenvolvimento de uma solução robusta e geral neste domínio. Neste ambiente, abordar o aspecto temporal dos vídeo ´e crucial para construir modelos realistas. Um passo fundamental nessa direção ´e a seleção de características dos vídeos que retratem a complexidade das ações humanas. Com este objetivo, uma solução baseada em uma arquitetura multi-fluxo formada por redes neurais convolucionais profundas ´e proposta neste trabalho. Um esquema multi-fluxo ´e uma forma interessante de agregar informações de diferentes origens com um custo de treinamento inferior ao de outros m´métodos. Uma nova característica temporal, chamada ritmo do fluxo óptico, foi incorporada `a arquitetura para melhorar o seu desempenho. Os experimentos realizados sugerem que o ritmo do fluxo óptico ´e complementar `as outras informações geralmente usadas nessas arquiteturas, como imagens em RGB, fluxo ´optico e ritmo visual, potencializando os resultados da abordagem. Para combinar os vários fluxos de informação dessa arquitetura, ´e introduzido um novo m´método de fusão por m´média ponderada, onde os pesos dos classificadores são definidos pela meta-heurística resfriamento simulado. Além disso, ´e especificada uma nova estratégia de treinamento e teste para os dois novos fluxos introduzidos neste trabalho. Esse esquema ´e baseado na extração de m´múltiplos planos dos ritmos visuais e do fluxo óptico dos vídeos. Os resultados indicam um aumento na eficácia da arquitetura usando esta estratégia. Os experimentos realizados em dois conjuntos de dados desafiadores, UCF101 e HMDB51, demonstram que o m´método desenvolvido ´e comparável `as abordagens estado da arte. |