Re-Identificação de pessoas em imagens digitais utilizando redes neurais siamesas e triplet baseadas em uma rede neural convolucional e um autoencoder

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Enembreck, Fábia Isabella Pires lattes
Orientador(a): Morais, Erikson Freitas de lattes
Banca de defesa: Morais, Erikson Freitas de lattes, Senger, Luciano José lattes, Martins, Marcella Scoczynski Ribeiro lattes, Schwartz, William Robson lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Ponta Grossa
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/5231
Resumo: Em ambientes monitorados por câmeras de segurança, o problema de determinar se uma pessoa que está sendo observada já esteve presente na cena ou não, independente se o sistema utiliza uma ou mais câmeras, é chamado de re-identificação de pessoas. Este problema é considerado desafiador, uma vez que as imagens obtidas por câmeras estão sujeitas a sofrer grandes variações, como iluminação e perspectiva. Além disso, pessoas em imagens podem passar por transformações e oclusões parciais. Com isso, este trabalho tem como objetivo o desenvolvimento de duas abordagens para re-identificação de pessoas que sejam robustas a essas variações, por meio de técnicas de aprendizagem profunda. A primeira abordagem proposta utiliza uma arquitetura de rede neural siamesa, composta por duas sub-redes idênticas, esse modelo recebe duas imagens de entrada que podem ser ou não de uma mesma pessoa. A segunda abordagem consiste em uma rede neural triplet, com três sub-redes idênticas e que recebe de entrada uma imagem de referência de uma determinada pessoa, uma segunda imagem da mesma pessoa e outra imagem de uma pessoa diferente. Ambas as redes possuem sub-redes idênticas, formadas por uma rede neural convolucional que irá extrair características gerais de cada imagem e uma rede autoencoder, responsável por tratar as grandes variações que as imagens da entrada podem sofrer. Para analisar e comparar as redes desenvolvidas foram utilizados três datasets, sendo que as medidas de avaliação escolhidas para análise foram a acurácia e a curva CMC. Experimentos realizados comprovaram uma melhora de até 71,05% nos resultados com a utilização do autoencoder nas sub-redes. Além disso, os experimentos também mostraram uma superioridade da rede neural triplet desenvolvida neste trabalho em relação a rede neural siamesa e a outros métodos do estado da arte.