Musical Hyperlapse: A multimodal approach to accelerate first-person videos

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Diognei de Matos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/39051
https://orcid.org/ 0000-0002-1254-8482
Resumo: Com a facilidade de obtenção de dispositivos portáteis como câmeras e smartphones, a gravação de vídeos em primeira pessoa vem se tornando um hábito comum. Esses vídeos normalmente são muito longos e cansativos de assistir, sendo necessárias edições manuais. Com isso, surgiram métodos de aceleração que buscam reduzir o tamanho desses vídeos, maximizando a estabilidade visual sem perder as informações relevantes e produzindo um vídeo acelerado agradável de assistir. Apesar do progresso recente dos métodos de aceleração, esses métodos não consideram a inserção da música de fundo nos vídeos. A inclusão da música de fundo pode tornar os vídeos acelerados ainda mais agradáveis, pois o usuário poderá assistir o vídeo acelerado combinado com sua música de interesse. Esta dissertação apresenta uma nova metodologia que cria vídeos acelerados e insere automaticamente a música de fundo, combinando as emoções induzidas pelas modalidades visuais e acústicas. Nosso método reconhece as emoções induzidas pelo vídeo e pela música ao longo do tempo, usando redes neurais artificiais, criando curvas de emoção para o vídeo e para a música, representadas no modelo de Russell, um modelo de representação da emoção usado na área de psicologia. Nosso método possui também um algoritmo de otimização que calcula as similaridades entre os quadros do vídeo e segmentos da música, criando uma matriz custo dinâmico e computando o caminho ótimo que alinha a curva de emoção do vídeo com a da música, preservando também a estabilidade visual e continuidade temporal do vídeo acelerado. Avaliamos o nosso método em um conjunto de vídeos e músicas com conteúdos e estilos variados, comparando-o quantitativamente e qualitativamente com outros métodos de aceleração de vídeo presentes na literatura. Os resultados mostram que nosso método atinge o melhor desempenho em maximizar a similaridade das emoções, aumentando-a significativamente na maioria dos casos, enquanto também mantém a estabilidade visual dos vídeos acelerados em comparação com os outros métodos da literatura.