Correspondência entre pessoas em uma rede de câmeras de vigilância

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Raphael Felipe de Carvalho Prates
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/33533
https://orcid.org/0000-0003-2099-9256
Resumo: O número de redes de câmeras de vigilância é cada vez maior como consequência da crescente preocupação com segurança. A grande quantidade de dados coletados demanda sistemas de vigilância inteligentes para extrair informações que sejam úteis aos oficiais de segurança. De forma a alcançar esse objetivo, esse sistema deve ser capaz de correlacionar as informações capturadas por diferentes câmeras de vigilância. Nesse cenário, a re-identificação de pessoas é de central importância para estabelecer uma identidade global para indivíduos capturados por diferentes câmeras usando apenas a aparência visual. No entanto, trata-se de uma tarefa desafiadora, uma vez que a mesma pessoa quando capturada por câmeras distintas sofre uma drástica mudança de aparência como consequência das variações no ponto-de-vista, iluminação e pose. Trabalhos recentes abordam a re-identificação de pessoas propondo descritores visuais robustos ou funções de correspondência entre câmeras, as quais são funções que aprendem a calcular a identidade correta de imagens capturadas por diferentes câmeras. Porém, a maior parte desses trabalhos é prejudicada por problemas como ambiguidade entre indivíduos, a escalabilidade e o número reduzido de imagens rotuladas no conjunto de treino. Nesta tese, abordamos o problema de correspondência de indivíduos entre câmeras de forma a tratar os problemas já mencionados e, portanto, obter melhores resultados. Especificamente, propomos duas direções: o aprendizado de subespaços e os modelos de identificação indireta. O primeiro aprende um subespaço comum que é escalável com respeito ao número de câmeras e robusto em relação à quantidade de imagens de treino disponíveis. Na identificação indireta, identificamos imagens de prova e galeria baseado na similaridade com as amostras de um conjunto de treino. Resultados experimentais validam ambas as abordagens no problema de re-identificação de pessoas considerando tanto apenas um par de câmeras como situações mais realísticas com múltiplas câmeras.