Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado
| Main Author: | |
|---|---|
| Publication Date: | 2025 |
| Format: | Doctoral thesis |
| Language: | por |
| Source: | Repositório Institucional da UFPel - Guaiaca |
| Download full: | http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/17984 |
Summary: | The Versatile Video Coding standard was released by the Joint Video Experts Team in 2020, introducing several tools aimed at improving compression efficiency compared to previous standards. One of the innovations is the Multiple Transform Selection, which enables the encoder to choose between different types of transforms to bet ter adapt to the local characteristics of the video signal. Multiple Transform Selection employs the discrete cosine transform type II , discrete cosine transform type VIII, and discrete sine transform type VII, also allowing distinct combinations of these transforms in the horizontal and vertical directions. Although this flexibility improves compression efficiency, it also significantly increases computational complexity, since multiple com binations of transforms and block sizes must be evaluated by the encoder. In light of these challenges, this thesis proposes the development of dedicated hardware ar chitectures for the Multiple Transform Selection module of the Versatile Video Coding encoder, focusing on reducing energy consumption and enabling real-time compres sion. The project is structured in three main stages: a detailed analysis of Multiple Transform Selection usability in the Versatile Video Coding reference software, the in tegration of machine learning-based predictive models into the encoding flow, and the implementation of optimized hardware architectures based on data extracted from the encoder. To reduce the complexity of the transform selection process, predictive mod els were developed using machine learning algorithms. These models were trained on data directly extracted from the Versatile Video Coding reference encoder, and their purpose is to anticipate which transforms are most likely to be selected in each sit uation. This prediction enables unnecessary transforms to be disabled, reducing the number of combinations tested and consequently lowering processing time and en ergy consumption. The proposed hardware architecture was designed to support both the traditional software execution flow and the modified flow that incorporates predic tive models. The thesis presents the methodology for feature extraction and selection, model training, integration into the VTM encoder, and energy and area results across different configurations and video resolutions. The results demonstrate that, despite a slight increase in bitrate, the adoption of predictive models led to significant reductions in encoding time and energy consumption. The tests demonstrate that, even with a small loss of 0.89% in coding efficiency, the adoption of predictive models resulted in significant reductions, averaging up to 7.98%, in processing time when implemented in the reference software. Additionally, the potential implementation of predictive mod els in hardware is discussed, using simple conditional structures, which allows their efficient integration into embedded systems with limited computational resources. The proposed hybrid approach, combining machine learning and optimized hardware archi tecture, represents a promising strategy for enabling energy-efficient Versatile Video Coding encoders, achieving energy consumption reductions of up to 71.37% for 4K resolutions. This contribution is relevant for both portable device applications and real time, high-resolution video compression scenarios |
| id |
UFPL_250d5f08927f45e1a966fa9a3750072b |
|---|---|
| oai_identifier_str |
oai:guaiaca.ufpel.edu.br:prefix/17984 |
| network_acronym_str |
UFPL |
| network_name_str |
Repositório Institucional da UFPel - Guaiaca |
| repository_id_str |
|
| spelling |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionadoEnergy Consumption Reduction for Transforms in the Versatile Video Coding Standard Using Supervised Machine LearningVVCMTSCodificação de vídeoAprendizado de máquinaVideo codingMachine learningCIENCIAS EXATAS E DA TERRACIENCIA DA COMPUTACAOThe Versatile Video Coding standard was released by the Joint Video Experts Team in 2020, introducing several tools aimed at improving compression efficiency compared to previous standards. One of the innovations is the Multiple Transform Selection, which enables the encoder to choose between different types of transforms to bet ter adapt to the local characteristics of the video signal. Multiple Transform Selection employs the discrete cosine transform type II , discrete cosine transform type VIII, and discrete sine transform type VII, also allowing distinct combinations of these transforms in the horizontal and vertical directions. Although this flexibility improves compression efficiency, it also significantly increases computational complexity, since multiple com binations of transforms and block sizes must be evaluated by the encoder. In light of these challenges, this thesis proposes the development of dedicated hardware ar chitectures for the Multiple Transform Selection module of the Versatile Video Coding encoder, focusing on reducing energy consumption and enabling real-time compres sion. The project is structured in three main stages: a detailed analysis of Multiple Transform Selection usability in the Versatile Video Coding reference software, the in tegration of machine learning-based predictive models into the encoding flow, and the implementation of optimized hardware architectures based on data extracted from the encoder. To reduce the complexity of the transform selection process, predictive mod els were developed using machine learning algorithms. These models were trained on data directly extracted from the Versatile Video Coding reference encoder, and their purpose is to anticipate which transforms are most likely to be selected in each sit uation. This prediction enables unnecessary transforms to be disabled, reducing the number of combinations tested and consequently lowering processing time and en ergy consumption. The proposed hardware architecture was designed to support both the traditional software execution flow and the modified flow that incorporates predic tive models. The thesis presents the methodology for feature extraction and selection, model training, integration into the VTM encoder, and energy and area results across different configurations and video resolutions. The results demonstrate that, despite a slight increase in bitrate, the adoption of predictive models led to significant reductions in encoding time and energy consumption. The tests demonstrate that, even with a small loss of 0.89% in coding efficiency, the adoption of predictive models resulted in significant reductions, averaging up to 7.98%, in processing time when implemented in the reference software. Additionally, the potential implementation of predictive mod els in hardware is discussed, using simple conditional structures, which allows their efficient integration into embedded systems with limited computational resources. The proposed hybrid approach, combining machine learning and optimized hardware archi tecture, represents a promising strategy for enabling energy-efficient Versatile Video Coding encoders, achieving energy consumption reductions of up to 71.37% for 4K resolutions. This contribution is relevant for both portable device applications and real time, high-resolution video compression scenariosCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESO padrão de codificação de vídeo Versatile Video Coding foi lançado pelo Joint Video Experts Team em 2020, incluindo diversas ferramentas para melhorar a eficiência de compressão em relação a padrões anteriores. Uma das principais inovações é a Multiple Transform Selection, que permite ao codificador escolher entre diferentes tipos de transformadas para melhor se adequar às características locais do sinal de vídeo. A Multiple Transform Selection utiliza a transformada discreta do cosseno tipo II, a transformada discreta do cosseno tipo VIII e a transformada discreta do seno tipo VII, possibilitando ainda combinações distintas dessas transformadas nas direções horizontal e vertical. Embora essa flexibilidade proporcione ganhos em eficiência de compressão, ela também impõe um aumento significativo no custo computacional, já que diversas combinações de transformadas e tamanhos de blocos devem ser avaliadas pelo codificador. Diante desses desafios, esta tese propõe o desenvolvimento de arquiteturas de hardware dedicadas ao módulo da Multiple Transform Selection do codificador Versatile Video Coding, com foco na redução do consumo energético e na viabilidade de compressão em tempo real. O projeto é estruturado em três etapas principais: uma análise detalhada da usabilidade da Multiple Transform Selection no software de referência do Versatile Video Coding, a integração de modelos preditivos baseados em aprendizado de máquina ao fluxo de codificação, e a implementação de arquiteturas de hardware otimizadas a partir dos dados extraídos do codificador. Para reduzir a complexidade do processo de seleção das transformadas, foram desenvolvidos modelos preditivos utilizando algoritmos de aprendizado de máquina. Esses modelos foram treinados com dados extraídos dire tamente do codificador de referência, e sua função é antecipar quais transformadas são mais prováveis de serem escolhidas em cada situação. Essa predição permite desabilitar transformadas desnecessárias, reduzindo o número de combinações testadas e, consequentemente, o tempo de processamento e o consumo energético. A arquitetura de hardware proposta foi projetada para suportar tanto o fluxo tradicional do software quanto o fluxo modificado com os modelos preditivos. A tese apresenta a metodologia de extração e seleção de features, o treinamento dos modelos, a integração ao codificador e os resultados de consumo energético e área para diferen tes configurações e resoluções de vídeo. Os testes demonstram que, mesmo com uma pequena perda de 0,89% na eficiência de codificação, a adoção dos modelos preditivos resultou em reduções expressivas de até 7,98%, em média, no tempo de processamento quando implementada no software de referência. Adicionalmente, foi discutido o potencial de implementação dos modelos preditivos em hardware, utilizando estruturas condicionais simples, possibilitando sua integração eficiente a sistemas embarcados com recursos computacionais limitados. Observa-se que a abordagem híbrida proposta, combinando aprendizado de máquina e arquitetura de hardware otimizada, representa uma estratégia promissora para a viabilização de codificadores Versatile Video Coding energeticamente eficientes, atingindo reduções de até 71,37% em consumo energético para resoluções de 4K. Esta contribuição é relevante tanto para aplicações em dispositivos portáteis quanto para cenários de compressão em tempo real em alta resolução.Universidade Federal de PelotasPrograma de Pós-Graduação em ComputaçãoUFPelBrasilhttp://lattes.cnpq.br/3733532475339634http://lattes.cnpq.br/1389878856201800Diniz, Cláudio Machadohttp://lattes.cnpq.br/3726715175711775Palomino, Daniel Munari Vilchezhttp://lattes.cnpq.br/3163503973303585Corrêa, Guilherme RibeiroSilveira, Bianca Santos da Cunha da2025-10-10T11:55:20Z2025-10-092025-10-10T11:55:20Z2025-06-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfSILVEIRA, Bianca Santos da Cunha da. Redução de Consumo Energético para Transformadas do Padrão Versatile Video Coding com Auxílio de Apren dizado de Máquina Supervisionado. Orientador: Guilherme Ribeiro Corrêa. 2025. 154 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025.http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/17984porCC BY-NC-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPel - Guaiacainstname:Universidade Federal de Pelotas (UFPEL)instacron:UFPEL2025-10-11T06:05:25Zoai:guaiaca.ufpel.edu.br:prefix/17984Repositório InstitucionalPUBhttp://repositorio.ufpel.edu.br/oai/requestrippel@ufpel.edu.br || repositorio@ufpel.edu.br || aline.batista@ufpel.edu.bropendoar:2025-10-11T06:05:25Repositório Institucional da UFPel - Guaiaca - Universidade Federal de Pelotas (UFPEL)false |
| dc.title.none.fl_str_mv |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado Energy Consumption Reduction for Transforms in the Versatile Video Coding Standard Using Supervised Machine Learning |
| title |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado |
| spellingShingle |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado Silveira, Bianca Santos da Cunha da VVC MTS Codificação de vídeo Aprendizado de máquina Video coding Machine learning CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO |
| title_short |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado |
| title_full |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado |
| title_fullStr |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado |
| title_full_unstemmed |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado |
| title_sort |
Redução de consumo energético para transformadas do padrão versatile video coding com auxílio de aprendizado de máquina supervisionado |
| author |
Silveira, Bianca Santos da Cunha da |
| author_facet |
Silveira, Bianca Santos da Cunha da |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
http://lattes.cnpq.br/3733532475339634 http://lattes.cnpq.br/1389878856201800 Diniz, Cláudio Machado http://lattes.cnpq.br/3726715175711775 Palomino, Daniel Munari Vilchez http://lattes.cnpq.br/3163503973303585 Corrêa, Guilherme Ribeiro |
| dc.contributor.author.fl_str_mv |
Silveira, Bianca Santos da Cunha da |
| dc.subject.por.fl_str_mv |
VVC MTS Codificação de vídeo Aprendizado de máquina Video coding Machine learning CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO |
| topic |
VVC MTS Codificação de vídeo Aprendizado de máquina Video coding Machine learning CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO |
| description |
The Versatile Video Coding standard was released by the Joint Video Experts Team in 2020, introducing several tools aimed at improving compression efficiency compared to previous standards. One of the innovations is the Multiple Transform Selection, which enables the encoder to choose between different types of transforms to bet ter adapt to the local characteristics of the video signal. Multiple Transform Selection employs the discrete cosine transform type II , discrete cosine transform type VIII, and discrete sine transform type VII, also allowing distinct combinations of these transforms in the horizontal and vertical directions. Although this flexibility improves compression efficiency, it also significantly increases computational complexity, since multiple com binations of transforms and block sizes must be evaluated by the encoder. In light of these challenges, this thesis proposes the development of dedicated hardware ar chitectures for the Multiple Transform Selection module of the Versatile Video Coding encoder, focusing on reducing energy consumption and enabling real-time compres sion. The project is structured in three main stages: a detailed analysis of Multiple Transform Selection usability in the Versatile Video Coding reference software, the in tegration of machine learning-based predictive models into the encoding flow, and the implementation of optimized hardware architectures based on data extracted from the encoder. To reduce the complexity of the transform selection process, predictive mod els were developed using machine learning algorithms. These models were trained on data directly extracted from the Versatile Video Coding reference encoder, and their purpose is to anticipate which transforms are most likely to be selected in each sit uation. This prediction enables unnecessary transforms to be disabled, reducing the number of combinations tested and consequently lowering processing time and en ergy consumption. The proposed hardware architecture was designed to support both the traditional software execution flow and the modified flow that incorporates predic tive models. The thesis presents the methodology for feature extraction and selection, model training, integration into the VTM encoder, and energy and area results across different configurations and video resolutions. The results demonstrate that, despite a slight increase in bitrate, the adoption of predictive models led to significant reductions in encoding time and energy consumption. The tests demonstrate that, even with a small loss of 0.89% in coding efficiency, the adoption of predictive models resulted in significant reductions, averaging up to 7.98%, in processing time when implemented in the reference software. Additionally, the potential implementation of predictive mod els in hardware is discussed, using simple conditional structures, which allows their efficient integration into embedded systems with limited computational resources. The proposed hybrid approach, combining machine learning and optimized hardware archi tecture, represents a promising strategy for enabling energy-efficient Versatile Video Coding encoders, achieving energy consumption reductions of up to 71.37% for 4K resolutions. This contribution is relevant for both portable device applications and real time, high-resolution video compression scenarios |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-10-10T11:55:20Z 2025-10-09 2025-10-10T11:55:20Z 2025-06-26 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
SILVEIRA, Bianca Santos da Cunha da. Redução de Consumo Energético para Transformadas do Padrão Versatile Video Coding com Auxílio de Apren dizado de Máquina Supervisionado. Orientador: Guilherme Ribeiro Corrêa. 2025. 154 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025. http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/17984 |
| identifier_str_mv |
SILVEIRA, Bianca Santos da Cunha da. Redução de Consumo Energético para Transformadas do Padrão Versatile Video Coding com Auxílio de Apren dizado de Máquina Supervisionado. Orientador: Guilherme Ribeiro Corrêa. 2025. 154 f. Tese (Doutorado em Ciência da Computação) – Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025. |
| url |
http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/17984 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
CC BY-NC-SA info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
CC BY-NC-SA |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Pelotas Programa de Pós-Graduação em Computação UFPel Brasil |
| publisher.none.fl_str_mv |
Universidade Federal de Pelotas Programa de Pós-Graduação em Computação UFPel Brasil |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPel - Guaiaca instname:Universidade Federal de Pelotas (UFPEL) instacron:UFPEL |
| instname_str |
Universidade Federal de Pelotas (UFPEL) |
| instacron_str |
UFPEL |
| institution |
UFPEL |
| reponame_str |
Repositório Institucional da UFPel - Guaiaca |
| collection |
Repositório Institucional da UFPel - Guaiaca |
| repository.name.fl_str_mv |
Repositório Institucional da UFPel - Guaiaca - Universidade Federal de Pelotas (UFPEL) |
| repository.mail.fl_str_mv |
rippel@ufpel.edu.br || repositorio@ufpel.edu.br || aline.batista@ufpel.edu.br |
| _version_ |
1845919989753708544 |