An intelligent system for detection and identification of human behaviors from unconstrained video

Detalhes bibliográficos
Autor(a) principal: Afsar, Palwasha
Data de Publicação: 2018
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: http://hdl.handle.net/1822/56804
Resumo: The MAP-i Doctoral Programme in Computer Science, of the Universities of Minho, Aveiro and Porto
id RCAP_40efe63c18e246b837cc2b04e5b853ef
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/56804
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling An intelligent system for detection and identification of human behaviors from unconstrained videoEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaThe MAP-i Doctoral Programme in Computer Science, of the Universities of Minho, Aveiro and PortoIn this work, an intelligent system for human action recognition and destination trajectory prediction from unconstrained video is presented. For the automatic human action recognition, the video is processed frame by frame and blob analysis is performed to look for any active blobs. In order to select only humans and to remove noise, we defined a minimum pixel area for blob selection, which was set to 2000 pixels (e.g., 45x45, 60x34) after some preliminary experiments. For background subtraction, we tested the Gaussian Mixture Models (GMMs), for separating the foreground pixels from the background. This detector works on data collected from a stationary camera and compares a color or gray scale video frame to a background model to figure out whether it is part of the background or foreground. It then computes a foreground mask based on Gaussian Mixture Models (GMM). The human action recognition of our system is based on Hidden Markov Model (HMM) using the Bag of Words method (BoWs) (with boundary of humans as the main feature). Time-sequential images of human actions were transformed into feature vectors. We targeted two action classes: walking and sitting. Overall, high accuracy results were achieved. The proposed system for trajectory destination area prediction adopts a passive collection of video, works directly with raw video data and extracts motion features (position, velocity, and acceleration) from automatically detected human skeletons (with positions of the body of mass, head, hands and legs). It includes three main modules: human blob detection, an enhanced version of human blob detection to achieve improved silhouette; star skeleton detection, encompassing shadow removal and contour peak detection; and the final destination area prediction, based on preprocessing (dimensionality reduction and balancing sampling methods) and four classification methods: Multinomial logistic regression (MLR), Multilayer Perceptron (MLP) network, Random Forests (RF) and Support Vector Machine (SVM). For the second main task of this PhD, trajectory destination area prediction, the human blob detection was modified by adding another component: shadow and highlight removal. We also replaced the GMM background segmentation method by a simpler background subtraction method, such that the latter provided faster and better results. As a case study, we analyzed an exterior scene from a university campus that includes five main destination areas and 348 pedestrian trajectories from 171 videos. A realistic growing window evaluation was used in order to test four classifiers under six data processing combinations. The best results were achieved by the all inputs, undersampling and RF model. This model obtained the best global Area Under the Curve (AUC) of the Receiver Operating Characteristic (ROC) analysis, which corresponds to a high quality class discrimination (median AUC of 87%). Moreover, the suggested model provided very good ahead time predictions for four of the classes (A, B, C and D) and a reasonable ahead discrimination performance for class E. While we achieved interesting results in the analyzed university campus case study, we believe the proposed system is useful for other application scenarios.Neste trabalho é proposto um sistema inteligente para reconhecimento de ações humanas e previsão da área final de trajetórias pedestres a partir de vídeos que capturam espaços reais de movimentação humana. O vídeo é processado via uma sequência de imagens, sendo a deteção de humanos obtida via uma identificação de um objeto móvel com uma área mínima de 2000 pixels (por exemplo definido via um retângulo de 45x45 ou 60x34). Para a eliminação do fundo (ambiente), foram utilizados Gaussian Mixture Models (GMM), sendo que o reconhecimento de ações baseou-se em modelos de Hidden Markov (HMM). O sistema desenvolvido foi testado para detetar duas ações, caminhar e sentar, tendo sido obtida uma elevada acuidade. Quanto à previsão dá área final de trajetórias humanas, foi utilizado uma coleta passiva de vídeo. Os dados em bruto foram processados de modo a extrair atributos de movimento (posição, velocidade e aceleração) de esqueletos compostos por 5 pontos (cabeça, mãos e pés) estimados automaticamente a partir de um contorno humano. O sistema desenvolvido incluí três módulos principais: deteção humana (inclui uma melhoria do processamento de imagem via: uma subtração de fundo mais simples e mais eficaz; e uma remoção de sombras e brilhos), deteção de esqueletos humanos e previsão da área final da trajetória pedestre. Este último módulo é composto por métodos de processamento de dados (via compressão de atributos e de balanceamento dos dados de treino) e algoritmos de classificação: regressão logística, redes neuronais, Random Forest (RF) e máquinas de vetores de suporte. Como caso de estudo, foi analisado um cenário real e exterior de um campus universitário e que inclui: cinco entradas e saídas principais (A, B, C, D e E), 348 trajetórias pedestres e 171 vídeos. Foi testada uma avaliação robusta via um método de treino incremental, que permitiu avaliar o desempenho dos quatro classificadores em seis configurações distintas de processamento dos dados. Os melhores resultados foram alcançados pelo algoritmo RF, utilizando todos atributos (sem compressão) e uma amostragem de undersampling nos dados de treino. Este modelo obteve o melhor valor global da área da curva Receiver Operating Characteristic (ROC), correspondendo a uma discriminação de qualidade (valor da mediana da área de 87consegue realizar previsões atempadas de elevada qualidade para quatro classes (A, B, C e D) e de qualidade razoável para a classe restante (E).Cortez, PauloSantos, HenriqueUniversidade do MinhoAfsar, Palwasha2018-06-282018-06-28T00:00:00Zdoctoral thesisinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://hdl.handle.net/1822/56804eng101395787info:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-05-11T06:19:47Zoai:repositorium.sdum.uminho.pt:1822/56804Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T15:49:38.457539Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv An intelligent system for detection and identification of human behaviors from unconstrained video
title An intelligent system for detection and identification of human behaviors from unconstrained video
spellingShingle An intelligent system for detection and identification of human behaviors from unconstrained video
Afsar, Palwasha
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short An intelligent system for detection and identification of human behaviors from unconstrained video
title_full An intelligent system for detection and identification of human behaviors from unconstrained video
title_fullStr An intelligent system for detection and identification of human behaviors from unconstrained video
title_full_unstemmed An intelligent system for detection and identification of human behaviors from unconstrained video
title_sort An intelligent system for detection and identification of human behaviors from unconstrained video
author Afsar, Palwasha
author_facet Afsar, Palwasha
author_role author
dc.contributor.none.fl_str_mv Cortez, Paulo
Santos, Henrique
Universidade do Minho
dc.contributor.author.fl_str_mv Afsar, Palwasha
dc.subject.por.fl_str_mv Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description The MAP-i Doctoral Programme in Computer Science, of the Universities of Minho, Aveiro and Porto
publishDate 2018
dc.date.none.fl_str_mv 2018-06-28
2018-06-28T00:00:00Z
dc.type.driver.fl_str_mv doctoral thesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/56804
url http://hdl.handle.net/1822/56804
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 101395787
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833595560456617984