Deep learning approaches for soft biometrics classification in videos

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Aquino, Nelson Marcelo Romero lattes
Orientador(a): Lopes, Heitor Silvério lattes
Banca de defesa: Lopes, Heitor Silvério, Lazzaretti, André Eugênio, Perlin, Hugo Alberto
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Curitiba
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/3173
Resumo: O número de câmeras de vigilância instaladas em locais públicos cresceu enormemente nos últimos anos devido à necessidade de aumentar a segurança pública, permitindo obter uma grande quantidade de imagens e vídeos em tempo real sem muito esforço. Diferentes tipos de problemas podem ser resolvidos através do processamento dos dados obtidos por estas câmeras, como a identificação de indivíduos. As biometrias fracas podem ser úteis para executar esta tarefa, uma vez que elas fornecem informações que podem ser usadas para diferenciar uma pessoa de outra sem exigir a cooperação direta delas. No entanto, isso exige uma tarefa exaustiva de análise a ser feita por observadores humanos. Dependendo da quantidade de câmeras, isso pode até se tornar uma tarefa impossível. Métodos de visão computacional podem ser uma alternativa válida para realizar classificação de biometrias fracas em imagens ou vídeos. Os métodos de Deep Learning (DL) têm alcançado desempenhos muito bons em tarefas de visão computacional, como reconhecimento e detecção de objetos, ou segmentação de imagens. Seguindo esta linha, este trabalho tem como objetivo estudar a adequação de métodos de DL para classificar biometrias fracas em imagens ou vídeos. Três contribuições são apresentadas sobre este tema nesta dissertação. Primeiro, realizou-se um estudo sobre o efeito do aumento de dados no desempenho de redes neurais convolucionais para classificação de biometrias fracas em imagens. A segunda contribuição está relacionada com a transferência de informação de um conjunto de imagens a outro. Este processo se baseia em treinar um modelo com dados de uma distribuição e testá-lo em dados de outra distribuição. Finalmente, foi avaliado o uso de modelos de DL para realizar a classificação em vídeos. Para este propósito, foi proposta uma nova abordagem baseada no uso de redes de memória bidirecionais de longo e curto prazo. Resultados para os experimentos de aumento de dados mostram que grandes aumentos não induzem ao sobre-ajuste e que balancear um conjunto de dados antes do treino requer menor aumento para que o desempenho do modelo melhore. Quanto à transferência de informação, os resultados mostram que pode haver uma correlação entre a complexidade e similaridade dos conjuntos de dados que são utilizados para treinar e testar um modelo. Assim, se esta técnica for aplicada, o conjunto de treinamento deve preferencialmente ser muito semelhante ao do teste e deve ser de maior complexidade. Embora isso não seja definitivo, já que pode haver exceções dependendo da biometria fraca a classificar. Em termos de classificação de vídeo, em geral, nossas abordagens baseadas em uma rede neural recorrente e um modelo DL que representa dependências temporais através de um filtro passa-baixas produziram melhores resultados, em termos de acurácia geral e balanço de classificação, que uma abordagem baseada em classificar um vídeo usando apenas um de seus quadros.