An audiovisual approach for video summarization using psychoacoustic features

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Edson Roteia Araujo Junior
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/53872
Resumo: A sumarização de vídeo se refere à criação de uma versão resumida de um vídeo mais longo, destacando as partes mais informativas ou engajantes. Esta técnica é útil na área da recuperação de informação multimídia, permitindo que os usuários acessem facilmente informações importantes em grandes coleções de vídeos. Os métodos de sumarização de vídeo, que ajudam os usuários a consumir a crescente quantidade de dados visuais publicados, foram melhorados como resultado do avanço da pesquisa em visão computacional e aprendizado de máquina. Apesar do progresso realizado por backbones poderosos e designs de arquiteturas de redes neurais, a maioria dos métodos atuais negligencia as informações multimodais que estão ampla e naturalmente disponíveis na maioria dos cenários, como os sinais audiovisuais presentes em um vídeo. Neste trabalho, apresentamos um novo método baseado em informações audiovisuais para resumir vídeos. Ao contrário da maioria dos métodos atuais, nosso método aproveita as informações multimodais presentes nos vídeos, incluindo os sinais audiovisuais, para melhorar o desempenho da sumarização de vídeo. Nosso modelo incorpora essa informação em uma arquitetura baseada em transformers e demonstra uma melhora significativa como resultado. Além disso, propomos uma nova estratégia de treinamento usando pseudo-rótulos gerados a partir de características psicoacústicas do vídeo, o que nos permite alcançar resultados de ponta na configuração não-supervisionada. Por fim, introduzimos um novo dataset de sumarização de vídeo e avaliamos o desempenho de nosso método através de uma abordagem de avaliação de zero-shot. Nosso método supera as técnicas atuais estado da arte nesse domínio. Avaliamos as contribuições de cada componente do nosso método com estudos de ablação cuidadosos. Nossos experimentos mostram que nosso método é uma base de comparação forte tanto na configuração supervisionada quanto na não-supervisionada, alcançando o melhor desempenho na última com pontuação F1 de 52.6 no conjunto de dados SumMe.