Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2024 |
| Tipo de documento: | Dissertação |
| Idioma: | por |
| Título da fonte: | Repositório Institucional da UFPel - Guaiaca |
| Texto Completo: | http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/14649 |
Resumo: | The compression process necessary to enable video transmission and storage generates artifacts that reduce image quality, thereby resulting in a poorer user experience. To mitigate these artifacts, filtering strategies are typically applied to the decompressed frames, which are classified as in-loop and post-processing strategies. The later functions as a second layer of filtering, as some artifacts persist after in-loop filtering. Since they are not tied to any specific codec, these filters can be used as post-processing for any codec. The most recent post-processing filtering techniques are based on Deep Neural Networks, specifically Convolutional Neural Networks (CNNs), such as Spatio-Temporal Deformable Fusion (STDF), which is the state-of-the-art technique for video quality enhancement. However, as the results obtained in this research show, the STDF architecture does not yield good results when tested with other coding standards and quantization levels, causing quality losses in certain scenarios. Therefore, this work proposes the exploration of training techniques for the STDF architecture with the aim of improving its generalization capability across various video codecs. The first and second solutions are similar in methodology, proposing training based on a mixed dataset consisting of videos encoded by AOMedia Video 1 (AV1) and Versatile Video Coding (VVC). Unlike the first solution, which is trained from scratch without using a pre-trained model, the second solution employs fine-tuning strategy, starting from the original STDF model. The third solution is based on the multi-domain training paradigm, where each domain corresponds to a video codec. Experimental results show that the third solution achieved objective quality improvements of up to 1.234 dB. On average, the quality improvement achieved was 0.544 dB, and the solution proved capable of enhancing visual quality for all tested encoders and videos, being generic enough to be used as a single post-processing filter for multiple encoding standards/formats. |
| id |
UFPL_949c05cfb1b5c215e0221d25a9c4e080 |
|---|---|
| oai_identifier_str |
oai:guaiaca.ufpel.edu.br:prefix/14649 |
| network_acronym_str |
UFPL |
| network_name_str |
Repositório Institucional da UFPel - Guaiaca |
| repository_id_str |
|
| spelling |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos CodecsCompressed Video Quality Enhancement: Solutions with Deep Neural Networks for Multiple CodecsMelhoria de qualidade de vídeoRede Neural ConvolucionalRede Neural ProfundaCodificação de vídeoVideo Quality EnhancementConvolutional Neural NetworkDeep Neural NetworkVideo CodingCIENCIAS EXATAS E DA TERRACIENCIA DA COMPUTACAOThe compression process necessary to enable video transmission and storage generates artifacts that reduce image quality, thereby resulting in a poorer user experience. To mitigate these artifacts, filtering strategies are typically applied to the decompressed frames, which are classified as in-loop and post-processing strategies. The later functions as a second layer of filtering, as some artifacts persist after in-loop filtering. Since they are not tied to any specific codec, these filters can be used as post-processing for any codec. The most recent post-processing filtering techniques are based on Deep Neural Networks, specifically Convolutional Neural Networks (CNNs), such as Spatio-Temporal Deformable Fusion (STDF), which is the state-of-the-art technique for video quality enhancement. However, as the results obtained in this research show, the STDF architecture does not yield good results when tested with other coding standards and quantization levels, causing quality losses in certain scenarios. Therefore, this work proposes the exploration of training techniques for the STDF architecture with the aim of improving its generalization capability across various video codecs. The first and second solutions are similar in methodology, proposing training based on a mixed dataset consisting of videos encoded by AOMedia Video 1 (AV1) and Versatile Video Coding (VVC). Unlike the first solution, which is trained from scratch without using a pre-trained model, the second solution employs fine-tuning strategy, starting from the original STDF model. The third solution is based on the multi-domain training paradigm, where each domain corresponds to a video codec. Experimental results show that the third solution achieved objective quality improvements of up to 1.234 dB. On average, the quality improvement achieved was 0.544 dB, and the solution proved capable of enhancing visual quality for all tested encoders and videos, being generic enough to be used as a single post-processing filter for multiple encoding standards/formats.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESO processo de compressão necessário para viabilizar transmissão e armazena mento de vídeos gera artefatos que reduzem a qualidade da imagem, o que se reflete em uma pior qualidade de experiência do usuário. Para atenuar esses artefatos, são tipicamente aplicadas estratégias de filtragem no quadro descomprimido, as quais são classificadas como estratégias in-loop e de pós-processamento. Esta última funciona como uma segunda camada de filtragem, já que alguns artefatos persistem após a filtragem in-loop. Por não estarem atrelados a nenhum codec em específico, esses filtros podem ser usados como pós-processamento de qualquer codec. As técnicas mais atuais de filtragem de pós-processamento são baseadas em Redes Neurais Profundas, mais especificamente nas Redes Neurais Convo lucionais (CNN), como é o caso da Spatio-Temporal Deformable Fusion (STDF), que é a técnica estado-da-arte para melhoria de qualidade de vídeos. Entretanto, conforme apresentam os resultados obtidos nesta pesquisa, a arquitetura STDF não apresenta bons resultados quando testada com outros padrões de codificação e níveis de quantização, causando, inclusive, perdas de qualidade em determinados cenários. Por isso, este trabalho propõe a exploração de técnicas de treinamento da arquitetura STDF, com o objetivo de melhorar sua capacidade de generalização em diversos codecs de vídeo. A primeira e a segunda solução são semelhantes quanto à metodologia, ao propor um treinamento baseado em um dataset misto formado por vídeos codificados pelo AOMedia Video 1 (AV1) e Versatile Video Coding (VVC). Ao contrário da primeira solução, que é treinada desde o início sem utilizar modelo pré-treinado, a segunda solução emprega a estratégia de fine tunning, partindo do modelo STDF original. A terceira solução se baseia no paradigma de treinamento multi-domínio, onde cada domínio corresponde a um codec de vídeo. Os resultados experimentais mostram que a terceira solução atingiu melhorias de qualidade objetiva de até 1,437 dB. Na média, a melhoria de qualidade atingida foi de 0,569 dB e a solução mostrou-se capaz de melhorar a qualidade visual para todos os codificadores e todos os vídeos testados, sendo genérica o suficiente para ser usada como filtro único de pós-processamento para múltiplos padrões/formatos de codificação.Universidade Federal de PelotasPrograma de Pós-Graduação em ComputaçãoUFPelBrasilhttp://lattes.cnpq.br/8869246350367351http://lattes.cnpq.br/1389878856201800Zatt, Brunohttp://lattes.cnpq.br/8251926321102019Palomino, Daniel Munari Vilchezhttp://lattes.cnpq.br/3163503973303585Corrêa, Guilherme RibeiroFranco Neto, Gilberto Kreisler2024-12-06T14:46:24Z2024-12-06T14:46:24Z2024-06-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfFRANCO NETO, Gilberto Kreisler. Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs. Orientador: Guilherme Ribeiro Corrêa. 2024. 76 f. Dissertação (Mestrado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2024.http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/14649porCC BY-NC-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPel - Guaiacainstname:Universidade Federal de Pelotas (UFPEL)instacron:UFPEL2024-12-07T06:04:05Zoai:guaiaca.ufpel.edu.br:prefix/14649Repositório InstitucionalPUBhttp://repositorio.ufpel.edu.br/oai/requestrippel@ufpel.edu.br || repositorio@ufpel.edu.br || aline.batista@ufpel.edu.bropendoar:2024-12-07T06:04:05Repositório Institucional da UFPel - Guaiaca - Universidade Federal de Pelotas (UFPEL)false |
| dc.title.none.fl_str_mv |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs Compressed Video Quality Enhancement: Solutions with Deep Neural Networks for Multiple Codecs |
| title |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs |
| spellingShingle |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs Franco Neto, Gilberto Kreisler Melhoria de qualidade de vídeo Rede Neural Convolucional Rede Neural Profunda Codificação de vídeo Video Quality Enhancement Convolutional Neural Network Deep Neural Network Video Coding CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO |
| title_short |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs |
| title_full |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs |
| title_fullStr |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs |
| title_full_unstemmed |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs |
| title_sort |
Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs |
| author |
Franco Neto, Gilberto Kreisler |
| author_facet |
Franco Neto, Gilberto Kreisler |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
http://lattes.cnpq.br/8869246350367351 http://lattes.cnpq.br/1389878856201800 Zatt, Bruno http://lattes.cnpq.br/8251926321102019 Palomino, Daniel Munari Vilchez http://lattes.cnpq.br/3163503973303585 Corrêa, Guilherme Ribeiro |
| dc.contributor.author.fl_str_mv |
Franco Neto, Gilberto Kreisler |
| dc.subject.por.fl_str_mv |
Melhoria de qualidade de vídeo Rede Neural Convolucional Rede Neural Profunda Codificação de vídeo Video Quality Enhancement Convolutional Neural Network Deep Neural Network Video Coding CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO |
| topic |
Melhoria de qualidade de vídeo Rede Neural Convolucional Rede Neural Profunda Codificação de vídeo Video Quality Enhancement Convolutional Neural Network Deep Neural Network Video Coding CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO |
| description |
The compression process necessary to enable video transmission and storage generates artifacts that reduce image quality, thereby resulting in a poorer user experience. To mitigate these artifacts, filtering strategies are typically applied to the decompressed frames, which are classified as in-loop and post-processing strategies. The later functions as a second layer of filtering, as some artifacts persist after in-loop filtering. Since they are not tied to any specific codec, these filters can be used as post-processing for any codec. The most recent post-processing filtering techniques are based on Deep Neural Networks, specifically Convolutional Neural Networks (CNNs), such as Spatio-Temporal Deformable Fusion (STDF), which is the state-of-the-art technique for video quality enhancement. However, as the results obtained in this research show, the STDF architecture does not yield good results when tested with other coding standards and quantization levels, causing quality losses in certain scenarios. Therefore, this work proposes the exploration of training techniques for the STDF architecture with the aim of improving its generalization capability across various video codecs. The first and second solutions are similar in methodology, proposing training based on a mixed dataset consisting of videos encoded by AOMedia Video 1 (AV1) and Versatile Video Coding (VVC). Unlike the first solution, which is trained from scratch without using a pre-trained model, the second solution employs fine-tuning strategy, starting from the original STDF model. The third solution is based on the multi-domain training paradigm, where each domain corresponds to a video codec. Experimental results show that the third solution achieved objective quality improvements of up to 1.234 dB. On average, the quality improvement achieved was 0.544 dB, and the solution proved capable of enhancing visual quality for all tested encoders and videos, being generic enough to be used as a single post-processing filter for multiple encoding standards/formats. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-12-06T14:46:24Z 2024-12-06T14:46:24Z 2024-06-27 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
FRANCO NETO, Gilberto Kreisler. Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs. Orientador: Guilherme Ribeiro Corrêa. 2024. 76 f. Dissertação (Mestrado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2024. http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/14649 |
| identifier_str_mv |
FRANCO NETO, Gilberto Kreisler. Melhoria de Qualidade de Vídeo Comprimido: soluções com Redes Neurais Profundas para Múltiplos Codecs. Orientador: Guilherme Ribeiro Corrêa. 2024. 76 f. Dissertação (Mestrado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2024. |
| url |
http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/14649 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
CC BY-NC-SA info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
CC BY-NC-SA |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Pelotas Programa de Pós-Graduação em Computação UFPel Brasil |
| publisher.none.fl_str_mv |
Universidade Federal de Pelotas Programa de Pós-Graduação em Computação UFPel Brasil |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPel - Guaiaca instname:Universidade Federal de Pelotas (UFPEL) instacron:UFPEL |
| instname_str |
Universidade Federal de Pelotas (UFPEL) |
| instacron_str |
UFPEL |
| institution |
UFPEL |
| reponame_str |
Repositório Institucional da UFPel - Guaiaca |
| collection |
Repositório Institucional da UFPel - Guaiaca |
| repository.name.fl_str_mv |
Repositório Institucional da UFPel - Guaiaca - Universidade Federal de Pelotas (UFPEL) |
| repository.mail.fl_str_mv |
rippel@ufpel.edu.br || repositorio@ufpel.edu.br || aline.batista@ufpel.edu.br |
| _version_ |
1845920006129319936 |