Reconhecimento de atividades humanas violentas em videovigilância utilizando redes neurais profundas e delimitação de área de interesse.
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Campina Grande
Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29315 |
Resumo: | O crescimento da quantidade de câmeras de videovigilância implantadas para o monitora- mento de ambientes nos últimos anos não é proporcional à capacidade humana de análise das cenas capturadas. As cenas capturadas podem conter evidências de ocorrências de crimes. No entanto, câmeras de videovigilância são pouco utilizadas para interromper ou prever atividades criminosas simultaneamente a suas ocorrências. Para tornar o combate ao crime mais eficiente, o reconhecimento de ações humanas poderia ser realizado automaticamente por meio de técnicas computacionais capazes de detectar e classificar os tipos de comportamentos huma- nos. Além disso, no cenário de reconhecimento de padrões em sistemas de videovigilância, outro grande desafio é definir um limiar entre eventos violentos e não-violentos em ambientes em constante mudança e de comportamentos com interpretações ambíguas, considerando o contexto em que são realizados. Por esse motivo, como a natureza das cenas capturadas a partir de câmeras de videovigilância é constituída em sua maior parte de comportamentos comuns ou não violentos, o monitoramento de cenas requer que a capacidade de análise e percepção de atos agressivos seja precisa e acurada. Neste trabalho, é apresentada uma proposta para a detecção de comportamentos humanos violentos através de técnicas de visão computacional, tendo como principal contribuição a delimitação da área de interesse do quadro por meio do filtro gaussiano, como também, a redução do espaço de características de entrada para o modelo, mantendo as características mais relevantes. Além disso, a proposta é capaz de reduzir em aproximadamente até 45% o uso de memória VRAM (Video Random Access Memory) durante a fase de treinamento. A abordagem proposta obteve acurácia de 86,5% na fase de teste com o conjunto de dados RWF-2000 e superou a abordagem baseline, constituída por uma rede neural convolucional (CNN) treinada para a classificação de cenas humanas violentas, combinada com a técnica de corte da área de interesse dos quadros de vídeos. A abordagem também superou outras propostas do estado da arte no cenário de videovigilância. Análises estatísticas realizadas apontam a significância da melhoria dos resultados ao adotar-se o método proposto nesta pesquisa. A proposta também foi avaliada em conjuntos de dados de benchmark em cenários de brigas humanas. |