Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Franco Neto, Gilberto Kreisler
Orientador(a): Corrêa, Guilherme Ribeiro
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pelotas
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/14649
Resumo: O processo de compressão necessário para viabilizar transmissão e armazena mento de vídeos gera artefatos que reduzem a qualidade da imagem, o que se reflete em uma pior qualidade de experiência do usuário. Para atenuar esses artefatos, são tipicamente aplicadas estratégias de filtragem no quadro descomprimido, as quais são classificadas como estratégias in-loop e de pós-processamento. Esta última funciona como uma segunda camada de filtragem, já que alguns artefatos persistem após a filtragem in-loop. Por não estarem atrelados a nenhum codec em específico, esses filtros podem ser usados como pós-processamento de qualquer codec. As técnicas mais atuais de filtragem de pós-processamento são baseadas em Redes Neurais Profundas, mais especificamente nas Redes Neurais Convo lucionais (CNN), como é o caso da Spatio-Temporal Deformable Fusion (STDF), que é a técnica estado-da-arte para melhoria de qualidade de vídeos. Entretanto, conforme apresentam os resultados obtidos nesta pesquisa, a arquitetura STDF não apresenta bons resultados quando testada com outros padrões de codificação e níveis de quantização, causando, inclusive, perdas de qualidade em determinados cenários. Por isso, este trabalho propõe a exploração de técnicas de treinamento da arquitetura STDF, com o objetivo de melhorar sua capacidade de generalização em diversos codecs de vídeo. A primeira e a segunda solução são semelhantes quanto à metodologia, ao propor um treinamento baseado em um dataset misto formado por vídeos codificados pelo AOMedia Video 1 (AV1) e Versatile Video Coding (VVC). Ao contrário da primeira solução, que é treinada desde o início sem utilizar modelo pré-treinado, a segunda solução emprega a estratégia de fine tunning, partindo do modelo STDF original. A terceira solução se baseia no paradigma de treinamento multi-domínio, onde cada domínio corresponde a um codec de vídeo. Os resultados experimentais mostram que a terceira solução atingiu melhorias de qualidade objetiva de até 1,437 dB. Na média, a melhoria de qualidade atingida foi de 0,569 dB e a solução mostrou-se capaz de melhorar a qualidade visual para todos os codificadores e todos os vídeos testados, sendo genérica o suficiente para ser usada como filtro único de pós-processamento para múltiplos padrões/formatos de codificação.