Autoencoder-based image compression with target bitrate constraint

Detalhes bibliográficos
Autor(a) principal: Guerin Junior, Nilson Donizete
Data de Publicação: 2024
Tipo de documento: Tese
Idioma: eng
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/51947
Resumo: A compressão de imagens baseada em aprendizado tem se tornado uma alternativa promissora às técnicas tradicionais de codificação. Os codecs neurais evoluíram rapidamente, superando muitas vezes os métodos clássicos. Abordagens como autoencoders variacionais e redes neurais recorrentes têm demonstrado eficiência na otimização do equilíbrio entre taxa de compressão e qualidade da imagem. O controle de taxa é uma necessidade em várias aplicações de codificação de imagens. No entanto, alcançar esse controle de forma consistente e com impacto mínimo na qualidade da imagem ainda é um desafio. Geralmente, codecs com perdas precisam de vários modelos treinados para diferentes níveis de qualidade. Apesar de avanços para tornar os modelos mais flexíveis, permitindo múltiplos pontos de taxa-distorção, o problema de controle de taxa consistente — onde um único modelo entrega a taxa desejada para qualquer imagem — é pouco explorado. Neste trabalho, propomos uma solução eficiente para realizar controle de taxa em um único modelo baseado em aprendizado. Nossa abordagem modifica a função de perda do autoencoder durante o treinamento. Além disso, inspirados pela área de aprendizado por reforço, adicionamos uma estratégia temporal-adaptativa, que incorpora ajustes dinâmicos ao longo do tempo, tornando o treinamento mais robusto. Os resultados em bases de dados como Kodak e JPEG AI mostram que nossos modelos atingem controle de taxa com perdas mínimas nas métricas Índice Estrutural de Similaridade (SSIM, do inglês Structural Similarity Index) e Índice Estrutural de Similaridade Multi-Escala (MS-SSIM, do inglês Multi-Scale Structural Similarity Index). Observamos uma leve redução na Razão Pico-Sinal-Ruído (PSNR, do inglês Peak Signal-to-Noise Ratio) em comparação com modelos variacionais tradicionais que otimizam como perda a função de taxa-distorção.
id UNB_0b791d09d2efef551c76f08b87b913f3
oai_identifier_str oai:repositorio.unb.br:10482/51947
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Autoencoder-based image compression with target bitrate constraintCompressão de imagens com controle de taxa baseado em autoencodersCodificação de imagemRedes neurais (Computação)Controle de taxaCompressão neuralAprendizado por reforçoParâmetros adaptativos de perdaA compressão de imagens baseada em aprendizado tem se tornado uma alternativa promissora às técnicas tradicionais de codificação. Os codecs neurais evoluíram rapidamente, superando muitas vezes os métodos clássicos. Abordagens como autoencoders variacionais e redes neurais recorrentes têm demonstrado eficiência na otimização do equilíbrio entre taxa de compressão e qualidade da imagem. O controle de taxa é uma necessidade em várias aplicações de codificação de imagens. No entanto, alcançar esse controle de forma consistente e com impacto mínimo na qualidade da imagem ainda é um desafio. Geralmente, codecs com perdas precisam de vários modelos treinados para diferentes níveis de qualidade. Apesar de avanços para tornar os modelos mais flexíveis, permitindo múltiplos pontos de taxa-distorção, o problema de controle de taxa consistente — onde um único modelo entrega a taxa desejada para qualquer imagem — é pouco explorado. Neste trabalho, propomos uma solução eficiente para realizar controle de taxa em um único modelo baseado em aprendizado. Nossa abordagem modifica a função de perda do autoencoder durante o treinamento. Além disso, inspirados pela área de aprendizado por reforço, adicionamos uma estratégia temporal-adaptativa, que incorpora ajustes dinâmicos ao longo do tempo, tornando o treinamento mais robusto. Os resultados em bases de dados como Kodak e JPEG AI mostram que nossos modelos atingem controle de taxa com perdas mínimas nas métricas Índice Estrutural de Similaridade (SSIM, do inglês Structural Similarity Index) e Índice Estrutural de Similaridade Multi-Escala (MS-SSIM, do inglês Multi-Scale Structural Similarity Index). Observamos uma leve redução na Razão Pico-Sinal-Ruído (PSNR, do inglês Peak Signal-to-Noise Ratio) em comparação com modelos variacionais tradicionais que otimizam como perda a função de taxa-distorção.Learning-based image compression is emerging as a competitive alternative to conventional image coding techniques. Neural image coding has advanced significantly, evolving from struggling to match classical codecs to often surpassing them. Techniques such as variational autoencoders and recurrent neural networks have shown promise in optimizing the rate-distortion trade-off while preserving image content. Rate control is a critical feature, often a requirement for several still image coding applications. Achieving rate control for every input with minimal impact on rate-distortion performance remains challenging. Typically, learning-based lossy codecs need multiple trained models for different quality requirements. Although initiatives have aimed to enhance model flexibility by incorporating various rate-distortion points, the problem of consistent rate control—where a model achieves a specific rate across all compressed images—remains underexplored and poorly understood. This work proposes a non-constrained solution to the constrained problem of training a learning-based image codec for a specific bitrate. The solution involves modifying the loss function for autoencoder optimization. Additionally, inspired by reinforcement learning, a temporal-adaptive approach is introduced, which incorporates temporal behavior into the loss function, making the training process more robust against optimization challenges. Experiments conducted on the Kodak and JPEG AI datasets demonstrate that autoencoders trained with the proposed loss functions can achieve rateconstrained encoding with negligible losses in Structural Similarity Index Measure (SSIM) and Multi-scale Structural Similarity Index Measure (MS-SSIM). Some deterioration in peak signal-to-noise ratio (PSNR) is observed compared to the variational baseline architectures. However, this trade-off is expected, as restricted optimization scenarios are inherently more challenging than unrestricted ones.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaEspinoza, Bruno Luiggi MacchiavelloGuerin Junior, Nilson Donizete2025-03-17T20:08:36Z2025-03-17T20:08:36Z2025-03-172024-06-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfGUERIN JUNIOR, Nilson Donizete Guerin. Autoencoder-Based Image Compression with Target Bitrate Constraint. 2024. 194 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.http://repositorio.unb.br/handle/10482/51947engA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-03-17T20:08:36Zoai:repositorio.unb.br:10482/51947Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-03-17T20:08:36Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Autoencoder-based image compression with target bitrate constraint
Compressão de imagens com controle de taxa baseado em autoencoders
title Autoencoder-based image compression with target bitrate constraint
spellingShingle Autoencoder-based image compression with target bitrate constraint
Guerin Junior, Nilson Donizete
Codificação de imagem
Redes neurais (Computação)
Controle de taxa
Compressão neural
Aprendizado por reforço
Parâmetros adaptativos de perda
title_short Autoencoder-based image compression with target bitrate constraint
title_full Autoencoder-based image compression with target bitrate constraint
title_fullStr Autoencoder-based image compression with target bitrate constraint
title_full_unstemmed Autoencoder-based image compression with target bitrate constraint
title_sort Autoencoder-based image compression with target bitrate constraint
author Guerin Junior, Nilson Donizete
author_facet Guerin Junior, Nilson Donizete
author_role author
dc.contributor.none.fl_str_mv Espinoza, Bruno Luiggi Macchiavello
dc.contributor.author.fl_str_mv Guerin Junior, Nilson Donizete
dc.subject.por.fl_str_mv Codificação de imagem
Redes neurais (Computação)
Controle de taxa
Compressão neural
Aprendizado por reforço
Parâmetros adaptativos de perda
topic Codificação de imagem
Redes neurais (Computação)
Controle de taxa
Compressão neural
Aprendizado por reforço
Parâmetros adaptativos de perda
description A compressão de imagens baseada em aprendizado tem se tornado uma alternativa promissora às técnicas tradicionais de codificação. Os codecs neurais evoluíram rapidamente, superando muitas vezes os métodos clássicos. Abordagens como autoencoders variacionais e redes neurais recorrentes têm demonstrado eficiência na otimização do equilíbrio entre taxa de compressão e qualidade da imagem. O controle de taxa é uma necessidade em várias aplicações de codificação de imagens. No entanto, alcançar esse controle de forma consistente e com impacto mínimo na qualidade da imagem ainda é um desafio. Geralmente, codecs com perdas precisam de vários modelos treinados para diferentes níveis de qualidade. Apesar de avanços para tornar os modelos mais flexíveis, permitindo múltiplos pontos de taxa-distorção, o problema de controle de taxa consistente — onde um único modelo entrega a taxa desejada para qualquer imagem — é pouco explorado. Neste trabalho, propomos uma solução eficiente para realizar controle de taxa em um único modelo baseado em aprendizado. Nossa abordagem modifica a função de perda do autoencoder durante o treinamento. Além disso, inspirados pela área de aprendizado por reforço, adicionamos uma estratégia temporal-adaptativa, que incorpora ajustes dinâmicos ao longo do tempo, tornando o treinamento mais robusto. Os resultados em bases de dados como Kodak e JPEG AI mostram que nossos modelos atingem controle de taxa com perdas mínimas nas métricas Índice Estrutural de Similaridade (SSIM, do inglês Structural Similarity Index) e Índice Estrutural de Similaridade Multi-Escala (MS-SSIM, do inglês Multi-Scale Structural Similarity Index). Observamos uma leve redução na Razão Pico-Sinal-Ruído (PSNR, do inglês Peak Signal-to-Noise Ratio) em comparação com modelos variacionais tradicionais que otimizam como perda a função de taxa-distorção.
publishDate 2024
dc.date.none.fl_str_mv 2024-06-21
2025-03-17T20:08:36Z
2025-03-17T20:08:36Z
2025-03-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GUERIN JUNIOR, Nilson Donizete Guerin. Autoencoder-Based Image Compression with Target Bitrate Constraint. 2024. 194 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.
http://repositorio.unb.br/handle/10482/51947
identifier_str_mv GUERIN JUNIOR, Nilson Donizete Guerin. Autoencoder-Based Image Compression with Target Bitrate Constraint. 2024. 194 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.
url http://repositorio.unb.br/handle/10482/51947
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083173393203200