Detecção de mudanças em imagens utilizando aprendizado residual de redes neurais convolucionais

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Santos, Daniel Felipe Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/253297
Resumo: Detecção de mudanças em vídeos e imagens diz respeito ao processo de separar os conteúdos de primeiro plano da cena observada, do inglês \textit{foreground}, dos conteúdos de segundo plano, do inglês \textit{background}. Bons métodos de detecção de mudanças necessitam trabalhar de forma rápida e precisa sob condições adversas intrínsecas, relacionadas a falhas dos dispositivos de captura utilizados, e extrínsecas, relacionadas a alterações ambientais de clima e luminosidade capazes de induzir processos de detecção falso positivos e falso negativos. Para superar tais desafios propõe-se, num primeiro momento, o mecanismo denominado de atenção residual implícita, a ser avaliado pelas técnicas propostas de detecção de mudanças em vídeos denominadas Rede Neural Convolucional Residual em Cascata (CRCNN) e Rede Neural Convolucional em Cascata Multiescala (MCRCNN). Em um segundo momento propõe-se o mecanismo de atenção residual explícita, avaliado pelo método proposto denominado de Rede Leve de Atenção Temporal (TITAN). Resultados quantitativos produzidos pelas técnicas CRCNN e MCRCNN, calculados sobre a base de dados de Detecção de Mudanças 2014 (CD2014), indicaram ser vantajosa a utilização do mecanismo de atenção residual implícita, sendo a técnica MCRCNN superior à técnica CRCNN e a demais técnicas em estado da arte, como RTSegNet e DeepBS. Resultados quantitativos produzidos pela técnica TITAN, calculados sobre as bases de dados SZATAKI, Onera, LEVIR-CD e SYSU-CD, demonstraram ser vantajosa a utilização de mecanismo de atenção residual explícita. Para as mesmas bases de dados, a técnica TITAN também superou técnicas em estado da arte como FLS e STANet e equiparou-se com técnicas como DMINet e RSCDNet. Além disso, obteve resultados superiores ao de técnicas como FgSegNet\_S, FgSegNet\_M, RtSegNet, MUNets, DeepBS, SEUNet3 e MCRCNN sobre a base de vídeos CD2014, enquanto equiparou-se com técnicas como DMINet e FgSegNet\_v2, considerando a base de dados PetrobrasROUTES. Para quadros de dimensão $690 \times 520$, nos piores casos analisados, a técnica TITAN realizou $25,8 \times 10^9$ menos operações de ponto flutuante (FLOPs) e necessitou armazenar em memória $3,04 \times 10^6$ menos parâmetros, em comparação com a técnica DMINet. Também conseguiu superar a taxa de processamento de quadros por segundo (FPS) da técnica MU-Net1 em $20$ quadros.