Motion-based representations for activity recognition

Carlos Antônio Caetano Júnior

Motion-based representations for activity recognition

Detalhes bibliográficos
Ano de defesa:	2020
Autor(a) principal:	Carlos Antônio Caetano Júnior
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Universidade Federal de Minas Gerais Brasil ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO Programa de Pós-Graduação em Ciência da Computação UFMG
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Activity recognition Convolutional neural networks (CNNs) Spatiotemporal information Optical flow Temporal stream Computação - Tese Redes neurais convolucionais Reconhecimento de atividades humanas informação espaço-temporal
Link de acesso:	http://hdl.handle.net/1843/33550 https://orcid.org/0000-0002-1546-3740
Resumo:	Nesta tese, quatro representações distintas baseadas em informações de movimento são propostas para o reconhecimento de atividades. A primeira é um descritor de características espaço-temporal que extrai um conjunto robusto de medidas estatísticas para descrever padrões de movimento medindo propriedades significativas em matrizes de co-ocorrência e capturando características espaço-temporais do movimento através da magnitude e orientação do fluxo ótico. A segunda é uma nova representação intermediária (mid-level) compacta baseada em matrizes de co-ocorrência de palavras visuais. Essa representação expressa a distribuição das características em um dado deslocamento utilizando um dicionário visual pré-calculado, codificando assim estruturas globais de várias características baseadas em regiões locais. A terceira representação é a proposta de um novo fluxo temporal para redes convolucionais de dois fluxos (two-stream) baseado em imagens calculadas a partir da magnitude e orientação do fluxo ótico. O método aplica transformações não lineares nos componentes vertical e horizontal do fluxo ótico para gerar imagens de entrada para o fluxo temporal. Por fim, a quarta é uma representação de esqueleto para ser usada como entrada para redes convolucionais. A abordagem codifica a dinâmica temporal calculando de forma explícita os valores de magnitude e orientação das articulações do esqueleto. Além disso, a representação tem a vantagem de combinar o uso de juntas de referência e um algoritmo de árvore de esqueleto, incorporando assim diferentes relações espaciais entre as juntas e preservando importantes relações espaciais. Os experimentos realizados em bases de dados desafiadoras e bastante conhecidas sobre reconhecimento de atividades (KTH, UCF Sports, HMDB51, UCF101 NTU RGB+D 60 e NTU RGB+D 120) demonstram que as representações propostas obtiveram resultados melhores ou similares em comparação ao estado da arte, indicando a adequação das abordagens para serem usadas como representações de vídeo.

Motion-based representations for activity recognition

Registros relacionados