Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
Tacon, Hemerson Aparecido da Costa
 |
Orientador(a): |
Vieira, Marcelo Bernardes
 |
Banca de defesa: |
Villela, Saulo Moraes
,
Pedrini, Hélio
 |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Universidade Federal de Juiz de Fora (UFJF)
|
Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação
|
Departamento: |
ICE – Instituto de Ciências Exatas
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufjf.br/jspui/handle/ufjf/10307
|
Resumo: |
Nos últimos anos, avanços significativos foram alcançados no problema de classificação de imagens devido ao aprimoramentos dos modelos de Aprendizagem Profunda. Entretanto, no que diz respeito ao Reconhecimento de Ações Humanas, ainda existe muito espaço para melhorias. Uma forma de melhorar o desempenho de tais modelos é através do aumento de dados. Dessa forma propomos, como aumento de dados, o uso de múltiplos recortes do Ritmo Visual, simetricamente estendidos no tempo e separados por uma distância fixa. Propomos ainda utilizar uma nova forma de extração do Ritmo Visual, o Ritmo Visual Ponderado. Este método propõe reforçar os padrões de movimento pesando os aspectos mais próximos de uma posição específica no vídeo na qual julgamos que a ação tenha maior probabilidade de ocorrer. O método final consiste na replicação do Ritmo Visual Ponderado concatenando quantas cópias forem necessárias ao longo da dimensão temporal, tendo as cópias pares invertidas horizontalmente. Esse método torna possível a extração de recortes que correspondam ao tamanho de entrada fixo da Rede Neural Convolucional utilizada, bem como a preservação da taxa de amostragem do vídeo, o que é crucial para não distorcer a velocidade das ações. Não obstante, os vários recortes garantem que toda extensão espacial e temporal do Ritmo Visual seja contemplada. Com o objetivo de avaliar nosso método, empregamos uma estratégia multi-fluxo. Essa estratégia consiste na combinação de informações extraídas a partir dos frames RGB dos vídeos, do Fluxo Ótico, e dos Ritmos Visuais Simetricamente Estendidos horizontal e vertical. Nosso método resultou em taxas de acurácia próximas ao estado da arte nos conjuntos de dados UCF101 e HMDB51. |