Autoencoder-based image compression with target bitrate constraint

Guerin Junior, Nilson Donizete

Autoencoder-based image compression with target bitrate constraint

Detalhes bibliográficos
Autor(a) principal:	Guerin Junior, Nilson Donizete
Data de Publicação:	2024
Tipo de documento:	Tese
Idioma:	eng
Título da fonte:	Repositório Institucional da UnB
Texto Completo:	http://repositorio.unb.br/handle/10482/51947
Resumo:	A compressão de imagens baseada em aprendizado tem se tornado uma alternativa promissora às técnicas tradicionais de codificação. Os codecs neurais evoluíram rapidamente, superando muitas vezes os métodos clássicos. Abordagens como autoencoders variacionais e redes neurais recorrentes têm demonstrado eficiência na otimização do equilíbrio entre taxa de compressão e qualidade da imagem. O controle de taxa é uma necessidade em várias aplicações de codificação de imagens. No entanto, alcançar esse controle de forma consistente e com impacto mínimo na qualidade da imagem ainda é um desafio. Geralmente, codecs com perdas precisam de vários modelos treinados para diferentes níveis de qualidade. Apesar de avanços para tornar os modelos mais flexíveis, permitindo múltiplos pontos de taxa-distorção, o problema de controle de taxa consistente — onde um único modelo entrega a taxa desejada para qualquer imagem — é pouco explorado. Neste trabalho, propomos uma solução eficiente para realizar controle de taxa em um único modelo baseado em aprendizado. Nossa abordagem modifica a função de perda do autoencoder durante o treinamento. Além disso, inspirados pela área de aprendizado por reforço, adicionamos uma estratégia temporal-adaptativa, que incorpora ajustes dinâmicos ao longo do tempo, tornando o treinamento mais robusto. Os resultados em bases de dados como Kodak e JPEG AI mostram que nossos modelos atingem controle de taxa com perdas mínimas nas métricas Índice Estrutural de Similaridade (SSIM, do inglês Structural Similarity Index) e Índice Estrutural de Similaridade Multi-Escala (MS-SSIM, do inglês Multi-Scale Structural Similarity Index). Observamos uma leve redução na Razão Pico-Sinal-Ruído (PSNR, do inglês Peak Signal-to-Noise Ratio) em comparação com modelos variacionais tradicionais que otimizam como perda a função de taxa-distorção.

Metadados do item

id	UNB_0b791d09d2efef551c76f08b87b913f3
oai_identifier_str	oai:repositorio.unb.br:10482/51947
network_acronym_str	UNB
network_name_str	Repositório Institucional da UnB
repository_id_str
spelling	Autoencoder-based image compression with target bitrate constraintCompressão de imagens com controle de taxa baseado em autoencodersCodificação de imagemRedes neurais (Computação)Controle de taxaCompressão neuralAprendizado por reforçoParâmetros adaptativos de perdaA compressão de imagens baseada em aprendizado tem se tornado uma alternativa promissora às técnicas tradicionais de codificação. Os codecs neurais evoluíram rapidamente, superando muitas vezes os métodos clássicos. Abordagens como autoencoders variacionais e redes neurais recorrentes têm demonstrado eficiência na otimização do equilíbrio entre taxa de compressão e qualidade da imagem. O controle de taxa é uma necessidade em várias aplicações de codificação de imagens. No entanto, alcançar esse controle de forma consistente e com impacto mínimo na qualidade da imagem ainda é um desafio. Geralmente, codecs com perdas precisam de vários modelos treinados para diferentes níveis de qualidade. Apesar de avanços para tornar os modelos mais flexíveis, permitindo múltiplos pontos de taxa-distorção, o problema de controle de taxa consistente — onde um único modelo entrega a taxa desejada para qualquer imagem — é pouco explorado. Neste trabalho, propomos uma solução eficiente para realizar controle de taxa em um único modelo baseado em aprendizado. Nossa abordagem modifica a função de perda do autoencoder durante o treinamento. Além disso, inspirados pela área de aprendizado por reforço, adicionamos uma estratégia temporal-adaptativa, que incorpora ajustes dinâmicos ao longo do tempo, tornando o treinamento mais robusto. Os resultados em bases de dados como Kodak e JPEG AI mostram que nossos modelos atingem controle de taxa com perdas mínimas nas métricas Índice Estrutural de Similaridade (SSIM, do inglês Structural Similarity Index) e Índice Estrutural de Similaridade Multi-Escala (MS-SSIM, do inglês Multi-Scale Structural Similarity Index). Observamos uma leve redução na Razão Pico-Sinal-Ruído (PSNR, do inglês Peak Signal-to-Noise Ratio) em comparação com modelos variacionais tradicionais que otimizam como perda a função de taxa-distorção.Learning-based image compression is emerging as a competitive alternative to conventional image coding techniques. Neural image coding has advanced significantly, evolving from struggling to match classical codecs to often surpassing them. Techniques such as variational autoencoders and recurrent neural networks have shown promise in optimizing the rate-distortion trade-off while preserving image content. Rate control is a critical feature, often a requirement for several still image coding applications. Achieving rate control for every input with minimal impact on rate-distortion performance remains challenging. Typically, learning-based lossy codecs need multiple trained models for different quality requirements. Although initiatives have aimed to enhance model flexibility by incorporating various rate-distortion points, the problem of consistent rate control—where a model achieves a specific rate across all compressed images—remains underexplored and poorly understood. This work proposes a non-constrained solution to the constrained problem of training a learning-based image codec for a specific bitrate. The solution involves modifying the loss function for autoencoder optimization. Additionally, inspired by reinforcement learning, a temporal-adaptive approach is introduced, which incorporates temporal behavior into the loss function, making the training process more robust against optimization challenges. Experiments conducted on the Kodak and JPEG AI datasets demonstrate that autoencoders trained with the proposed loss functions can achieve rateconstrained encoding with negligible losses in Structural Similarity Index Measure (SSIM) and Multi-scale Structural Similarity Index Measure (MS-SSIM). Some deterioration in peak signal-to-noise ratio (PSNR) is observed compared to the variational baseline architectures. However, this trade-off is expected, as restricted optimization scenarios are inherently more challenging than unrestricted ones.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaEspinoza, Bruno Luiggi MacchiavelloGuerin Junior, Nilson Donizete2025-03-17T20:08:36Z2025-03-17T20:08:36Z2025-03-172024-06-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfGUERIN JUNIOR, Nilson Donizete Guerin. Autoencoder-Based Image Compression with Target Bitrate Constraint. 2024. 194 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.http://repositorio.unb.br/handle/10482/51947engA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-03-17T20:08:36Zoai:repositorio.unb.br:10482/51947Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-03-17T20:08:36Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv	Autoencoder-based image compression with target bitrate constraint Compressão de imagens com controle de taxa baseado em autoencoders
title	Autoencoder-based image compression with target bitrate constraint
spellingShingle	Autoencoder-based image compression with target bitrate constraint Guerin Junior, Nilson Donizete Codificação de imagem Redes neurais (Computação) Controle de taxa Compressão neural Aprendizado por reforço Parâmetros adaptativos de perda
title_short	Autoencoder-based image compression with target bitrate constraint
title_full	Autoencoder-based image compression with target bitrate constraint
title_fullStr	Autoencoder-based image compression with target bitrate constraint
title_full_unstemmed	Autoencoder-based image compression with target bitrate constraint
title_sort	Autoencoder-based image compression with target bitrate constraint
author	Guerin Junior, Nilson Donizete
author_facet	Guerin Junior, Nilson Donizete
author_role	author
dc.contributor.none.fl_str_mv	Espinoza, Bruno Luiggi Macchiavello
dc.contributor.author.fl_str_mv	Guerin Junior, Nilson Donizete
dc.subject.por.fl_str_mv	Codificação de imagem Redes neurais (Computação) Controle de taxa Compressão neural Aprendizado por reforço Parâmetros adaptativos de perda
topic	Codificação de imagem Redes neurais (Computação) Controle de taxa Compressão neural Aprendizado por reforço Parâmetros adaptativos de perda
description	A compressão de imagens baseada em aprendizado tem se tornado uma alternativa promissora às técnicas tradicionais de codificação. Os codecs neurais evoluíram rapidamente, superando muitas vezes os métodos clássicos. Abordagens como autoencoders variacionais e redes neurais recorrentes têm demonstrado eficiência na otimização do equilíbrio entre taxa de compressão e qualidade da imagem. O controle de taxa é uma necessidade em várias aplicações de codificação de imagens. No entanto, alcançar esse controle de forma consistente e com impacto mínimo na qualidade da imagem ainda é um desafio. Geralmente, codecs com perdas precisam de vários modelos treinados para diferentes níveis de qualidade. Apesar de avanços para tornar os modelos mais flexíveis, permitindo múltiplos pontos de taxa-distorção, o problema de controle de taxa consistente — onde um único modelo entrega a taxa desejada para qualquer imagem — é pouco explorado. Neste trabalho, propomos uma solução eficiente para realizar controle de taxa em um único modelo baseado em aprendizado. Nossa abordagem modifica a função de perda do autoencoder durante o treinamento. Além disso, inspirados pela área de aprendizado por reforço, adicionamos uma estratégia temporal-adaptativa, que incorpora ajustes dinâmicos ao longo do tempo, tornando o treinamento mais robusto. Os resultados em bases de dados como Kodak e JPEG AI mostram que nossos modelos atingem controle de taxa com perdas mínimas nas métricas Índice Estrutural de Similaridade (SSIM, do inglês Structural Similarity Index) e Índice Estrutural de Similaridade Multi-Escala (MS-SSIM, do inglês Multi-Scale Structural Similarity Index). Observamos uma leve redução na Razão Pico-Sinal-Ruído (PSNR, do inglês Peak Signal-to-Noise Ratio) em comparação com modelos variacionais tradicionais que otimizam como perda a função de taxa-distorção.
publishDate	2024
dc.date.none.fl_str_mv	2024-06-21 2025-03-17T20:08:36Z 2025-03-17T20:08:36Z 2025-03-17
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	GUERIN JUNIOR, Nilson Donizete Guerin. Autoencoder-Based Image Compression with Target Bitrate Constraint. 2024. 194 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024. http://repositorio.unb.br/handle/10482/51947
identifier_str_mv	GUERIN JUNIOR, Nilson Donizete Guerin. Autoencoder-Based Image Compression with Target Bitrate Constraint. 2024. 194 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.
url	http://repositorio.unb.br/handle/10482/51947
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB
instname_str	Universidade de Brasília (UnB)
instacron_str	UNB
institution	UNB
reponame_str	Repositório Institucional da UnB
collection	Repositório Institucional da UnB
repository.name.fl_str_mv	Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv	repositorio@unb.br
_version_	1839083173393203200

Autoencoder-based image compression with target bitrate constraint

Registros relacionados