Detalhes bibliográficos
Ano de defesa: |
2024 |
Autor(a) principal: |
Santos, Daniel Felipe Silva |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://hdl.handle.net/11449/253297
|
Resumo: |
Detecção de mudanças em vídeos e imagens diz respeito ao processo de separar os conteúdos de primeiro plano da cena observada, do inglês \textit{foreground}, dos conteúdos de segundo plano, do inglês \textit{background}. Bons métodos de detecção de mudanças necessitam trabalhar de forma rápida e precisa sob condições adversas intrínsecas, relacionadas a falhas dos dispositivos de captura utilizados, e extrínsecas, relacionadas a alterações ambientais de clima e luminosidade capazes de induzir processos de detecção falso positivos e falso negativos. Para superar tais desafios propõe-se, num primeiro momento, o mecanismo denominado de atenção residual implícita, a ser avaliado pelas técnicas propostas de detecção de mudanças em vídeos denominadas Rede Neural Convolucional Residual em Cascata (CRCNN) e Rede Neural Convolucional em Cascata Multiescala (MCRCNN). Em um segundo momento propõe-se o mecanismo de atenção residual explícita, avaliado pelo método proposto denominado de Rede Leve de Atenção Temporal (TITAN). Resultados quantitativos produzidos pelas técnicas CRCNN e MCRCNN, calculados sobre a base de dados de Detecção de Mudanças 2014 (CD2014), indicaram ser vantajosa a utilização do mecanismo de atenção residual implícita, sendo a técnica MCRCNN superior à técnica CRCNN e a demais técnicas em estado da arte, como RTSegNet e DeepBS. Resultados quantitativos produzidos pela técnica TITAN, calculados sobre as bases de dados SZATAKI, Onera, LEVIR-CD e SYSU-CD, demonstraram ser vantajosa a utilização de mecanismo de atenção residual explícita. Para as mesmas bases de dados, a técnica TITAN também superou técnicas em estado da arte como FLS e STANet e equiparou-se com técnicas como DMINet e RSCDNet. Além disso, obteve resultados superiores ao de técnicas como FgSegNet\_S, FgSegNet\_M, RtSegNet, MUNets, DeepBS, SEUNet3 e MCRCNN sobre a base de vídeos CD2014, enquanto equiparou-se com técnicas como DMINet e FgSegNet\_v2, considerando a base de dados PetrobrasROUTES. Para quadros de dimensão $690 \times 520$, nos piores casos analisados, a técnica TITAN realizou $25,8 \times 10^9$ menos operações de ponto flutuante (FLOPs) e necessitou armazenar em memória $3,04 \times 10^6$ menos parâmetros, em comparação com a técnica DMINet. Também conseguiu superar a taxa de processamento de quadros por segundo (FPS) da técnica MU-Net1 em $20$ quadros. |