Video surveillance anomaly detection with multiple overlapped cameras based on multi-instance learning

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Pereira, Silas Santiago Lopes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Estadual do Ceará
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=117452
Resumo: As abordagens de detecção de anomalias de vídeo (VAD) têm limitações quanto à representatividade das informações, pois os dados de vídeo geralmente são capturados de uma única câmera, o que pode não distinguir precisamente as atividades-alvo no contexto de vigilância automática. A falta de dados de vídeo rotulados suficientes também é um aspecto desafiador da construção de abordagens de detecção de anomalias de vídeo. VAD via Multiple Instance Learning (MIL) é convencionalmente projetada para o modo de câmera única e não consideram as informações de múltiplas visualizações produzidas por câmeras de vigilância sobrepostas, o que é muito comum em cenários práticos. Nesta pesquisa, mostramos que o desempenho da tarefa de detecção de anomalias de vídeo pode ser melhorado usando múltiplas câmeras para capturar informações espaço-temporais de diferentes perspectivas. Propomos o framework conceitual MC-MIL (Video Anomaly Detection with Multiple Overlapped Cameras and Multiple Instance Learning), que permite a concepção de funções de perda que consideram simultaneamente informações de múltiplas câmeras. Dentro deste arcabouço, propomos dois algoritmos multicâmera para VAD. O primeiro algoritmo, MC-MIL-1, treina uma rede de regressão para detecção de anomalias para múltiplas câmeras sem crescimento no número de parâmetros, O segundo algoritmo, MC-MIL-2, emprega uma rede neural multiview para aprender as especificidades de cada câmera e uma estratégia para sumarização de bag para melhorar o desempenho da rede.} Experimentos extensivos foram realizados com os datasets multicâmera Pets-2009, UpFall e HQFS. Avaliamos sistematicamente o desempenho do framework MC-MIL para diferentes combinações de câmeras, atributos profundos de vídeo extraídos a partir de dados brutos de fluxo óptico e RGB via rede Inflated 3D (I3D) e métodos MIL usados como backbones dentro do framework proposto. Os resultados sugerem que 1) esquemas multicâmera superam consistentemente métodos de câmera única em ambientes do mundo real e 2) três câmeras sobrepostas podem ser suficientes em ambientes semelhantes aos conjuntos de dados avaliados. Nossas descobertas abrem um tópico de pesquisa intrigante sobre esquemas VAD que consideram múltiplas fontes de câmeras sobrepostas em cenários de vigilância.