【图像压缩】连续比特率自适应《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》

提出一种非对称增益变分自编码器(AG-VAE),该方法使用增益单元实现单模型下的离散及连续比特率自适应,并引入非对称高斯熵模型提高熵估计精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》

1 绪论

本文提出连续比特率可调整框架,非对称、增益的变分自编码器(AG-VAE)。使用一对即插即用增益单元实现单个模型下离散比特率自适应,之后使用指数插值实现连续比特率自适应,其间增加的复杂度可以忽略不计。此外为解决非对称分布样本的熵估计误差,提出非对称高斯熵模型。

2 提出方法

2.1 增益单元

基于VAE的图像压缩框架中隐层表示普遍存在着不均匀的通道冗余。将隐层表示的前30个通道分别设置为0,之后转换回RGB域,图2左侧显示缺少不同通道导致的PSNR损失。选择通道29为例(缺少29导致的PSNR损失最多),应用不同缩放因子,得到结果如图2右侧。可以得出,不同通道的重要性不同,而且可以通过缩放控制重建质量。之前的许多工作忽略了不同通道的不均匀冗余。

根据以上性质设计增益单元,隐层变量y \in R^{c\times h \times w}y_i \in R^{h \times w}, i = 0, 1, \cdots, c-1,增益单元由增益矩阵组成M\in R^{c\times n},其中n代表增益向量数目。增益向量可以表示为m_s = \{m_{s, 0}, m_{s, 1}, \cdots, m_{s, c-1}\},s是增益向量序号。隐层重调整操作描述如下:

\bar{y}_{s, i} = y_i \times m_{s, i}

通过这种方法,隐层表示的量化损失可以通过增益向量逐通道地精细调整。网络被引导着为影响重建质量大的通道分配更多的比特。增益单元计算过程如下:

\bar{y}_s = G_{\psi}(y, s) = y \odot m_s

\odot代表逐通道相乘。需要注意的是,增益矩阵与自编码器网络联合训练以保证两者兼容。

2.2 离散可变比特率

量化过程公式化:

\hat{y}_s = Q(\bar{y}_s) = round(\bar{y}_s)

在将重调整、量化之后的结果\hat{y}_s送入decoder之前,添加可训练反增益单元,将\hat{y}_s映射回与y相同的数字间隔。反增益矩阵M^{'}\in R^{c\times n},反增益向量m_s^{'} = \{m_{s, 0}^{'}, m_{s, 1}^{'}, \cdots, m_{s, c-1}^{'}\},反增益过程:

y_s^{'} = IG_{\tau}(\hat{y}_s, s) = \hat{y}_s \odot m_s^{'}

训练过程中,每一对增益向量\{m_s, m_s^{'}\}对应预定义好的拉格朗日乘子有限集合B \in R^n中一个特定的拉格朗日乘子\beta_s,增益、反增益向量和拉格朗日乘子与下标s绑定在一起,离散可变比特率框架(DVR)损失函数如下:

\mathop{min}_{\theta, \phi, \varphi, \psi } \sum_{s = 0}^{n-1} R_\varphi(Q(G_{\varphi}(f_\theta(x), s))) + \beta_s \cdot D(x, g_\phi(\ IG_\tau(Q(G(f_\theta(x), s)), s)\ ))

推理过程中,更改s获得对应增益、反增益向量对。通过这种方法,可以获得R-D曲线上几个离散点的压缩性能,R-D曲线范围取决于拉格朗日乘子\beta_s的数量和值。

2.3 指数插值

增益单元对保证\hat{y}y的数字间隔相同(?),可以公式化为:

m_t \cdot m_t^{'} = m_r \cdot m_r^{'} = C, where \ r,t \in [0, 1, \cdots, n-1]

\{m_t,m_t^{'}\}\{m_r,m_r^{'}\}代表不同比特率的增益向量对。根据上式,可以获得指数插值公式:

(m_t \cdot m_t^{'})^l \cdot (m_r \cdot m_r^{'})^{1-l} = C,

[(m_r)^l \cdot (m_t)^{1-l}] \cdot [(m_r^{'})^l \cdot (m_t^{'})^{1-l}]=C,

m_v = [(m_r)^l \cdot (m_t)^{1-l}], m_v^{'}= [(m_r^{'})^l \cdot (m_t^{'})^{1-l}]

其中,{m_v, m_v^{'}}是生成增益向量对,l \in R是插值系数,控制对应生成增益向量对的比特率。l是实数,使用指数插值可以实现t, r之间任意比特率,实现了连续比特率控制方法(CVR),如图4所示,CVR扩大了覆盖范围同时不减R-D表现。

2.4 超先验的可变比特率

超先验被建模为无参数、全分解熵模型,比特率自适应也可以应用于超先验(HCVR),整体结构如下:

2.5 高斯熵模型

目前主流熵模型:

p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z}) \sim N(\mu, \sigma^2)

但是对称高斯熵模型自由度不够,对于不满足对称高斯分布的自然图片可能产生较大估计误差,因此使用非对称高斯熵模型[1]如下:

p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z}) \sim N(\mu, \sigma_l^{2}, \sigma_r^2)

其中\sigma_l^2, \sigma_r^2代表隐层表示的左右尺度参数。所有参数包括\mu, \sigma_l^2, \sigma_r^2都是可训练的,当左右尺度参数相同的时候退化为对称高斯分布。因此更灵活精确。

2.6 网络结构

AG-VAE框架如图6。采用自回归框架作为基础框架并添加增益单元对,使用非对称高斯作为熵模型。隐层变量y的通道数设置为192,卷积核大小为3\times 3。采用一些优化方法:注意力模块、通用量化[2]、平行上下文模型。

3 实验

3.1 实验细节

3.2 表现对比

率失真表现

只使用一个模型获得R-D曲线,PSNR表现sota,MS-SSIM表现与Cheng相近。

结果可视化

AG-VAE结果回复更多细节,减少了模糊伪影。

3.3 可变比特率方法对比

率失真表现

与原方法多模型曲线贴合,范围大,无性能损失。

增加的计算与参数

增加参数少,计算快。

3.4 消融学习

增益单元的泛化性

因为无需修改网络结构,增益单元几乎可以用于所有基于VAE的图像压缩方法。实验如图10:

HCVR方法

证明HCVR相对于CVR的优越性,如图11,使用HCVR略好于CVR。

非对称高斯模型

SG对称高斯模型,AG非对称高斯模型:

[1]Nafaa Nacereddine, Salavatore Tabbone, Djemel Ziou, and Latifa Hamami. Asymmetric generalized gaussian mixture models and em algorithm for image segmentation. In ICPR, 2010.

[2]Jacob Ziv. On universal quantization. IEEE Transactions on Information Theory, 1985.

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值