[pt] LOCALIZAÇÃO ESPAÇO-TEMPORAL DE ATORES EM VÍDEOS/VÍDEOS 360 E SUAS APLICAÇÕES

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: PAULO RENATO CONCEICAO MENDES
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=54666&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=54666&idi=2
http://doi.org/10.17771/PUCRio.acad.54666
Resumo: [pt] A popularidade de plataformas para o armazenamento e compartilhamento de vídeo tem criado um volume massivo de horas de vídeo. Dado um conjunto de atores presentes em um vídeo, a geração de metadados com a determinação temporal dos intervalos em que cada um desses atores está presente, bem como a localização no espaço 2D dos quadros em cada um desses intervalos pode facilitar a recuperação de vídeo e a recomendação. Neste trabalho, nós investigamos a Clusterização Facial em Vídeo para a localização espaço-temporal de atores. Primeiro descrevemos nosso método de Clusterização Facial em Vídeo em que utilizamos métodos de detecção facial, geração de embeddings e clusterização para agrupar faces dos atores em diferentes quadros e fornecer a localização espaço-temporal destes atores. Então, nós exploramos, propomos, e investigamos aplicações inovadoras dessa localização espaço-temporal em três diferentes tarefas: (i) Reconhecimento Facial em Vídeo, (ii) Recomendação de Vídeos Educacionais e (iii) Posicionamento de Legendas em Vídeos 360 graus. Para a tarefa (i), propomos um método baseado na similaridade de clústeres que é facilmente escalável e obteve um recall de 99.435 por cento e uma precisão de 99.131 por cento em um conjunto de vídeos. Para a tarefa (ii), propomos um método não supervisionado baseado na presença de professores em diferentes vídeos. Tal método não requer nenhuma informação adicional sobre os vídeo e obteve um valor mAP aproximadamente 99 por cento. Para a tarefa (iii), propomos o posicionamento dinâmico de legendas baseado na localização de atores em vídeo 360 graus.