Musical Hyperlapse: A multimodal approach to accelerate first-person videos
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal de Minas Gerais
Brasil ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO Programa de Pós-Graduação em Ciência da Computação UFMG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://hdl.handle.net/1843/39051 https://orcid.org/ 0000-0002-1254-8482 |
Resumo: | Com a facilidade de obtenção de dispositivos portáteis como câmeras e smartphones, a gravação de vídeos em primeira pessoa vem se tornando um hábito comum. Esses vídeos normalmente são muito longos e cansativos de assistir, sendo necessárias edições manuais. Com isso, surgiram métodos de aceleração que buscam reduzir o tamanho desses vídeos, maximizando a estabilidade visual sem perder as informações relevantes e produzindo um vídeo acelerado agradável de assistir. Apesar do progresso recente dos métodos de aceleração, esses métodos não consideram a inserção da música de fundo nos vídeos. A inclusão da música de fundo pode tornar os vídeos acelerados ainda mais agradáveis, pois o usuário poderá assistir o vídeo acelerado combinado com sua música de interesse. Esta dissertação apresenta uma nova metodologia que cria vídeos acelerados e insere automaticamente a música de fundo, combinando as emoções induzidas pelas modalidades visuais e acústicas. Nosso método reconhece as emoções induzidas pelo vídeo e pela música ao longo do tempo, usando redes neurais artificiais, criando curvas de emoção para o vídeo e para a música, representadas no modelo de Russell, um modelo de representação da emoção usado na área de psicologia. Nosso método possui também um algoritmo de otimização que calcula as similaridades entre os quadros do vídeo e segmentos da música, criando uma matriz custo dinâmico e computando o caminho ótimo que alinha a curva de emoção do vídeo com a da música, preservando também a estabilidade visual e continuidade temporal do vídeo acelerado. Avaliamos o nosso método em um conjunto de vídeos e músicas com conteúdos e estilos variados, comparando-o quantitativamente e qualitativamente com outros métodos de aceleração de vídeo presentes na literatura. Os resultados mostram que nosso método atinge o melhor desempenho em maximizar a similaridade das emoções, aumentando-a significativamente na maioria dos casos, enquanto também mantém a estabilidade visual dos vídeos acelerados em comparação com os outros métodos da literatura. |