《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》
1 绪论
本文提出连续比特率可调整框架,非对称、增益的变分自编码器(AG-VAE)。使用一对即插即用增益单元实现单个模型下离散比特率自适应,之后使用指数插值实现连续比特率自适应,其间增加的复杂度可以忽略不计。此外为解决非对称分布样本的熵估计误差,提出非对称高斯熵模型。
2 提出方法
2.1 增益单元
基于VAE的图像压缩框架中隐层表示普遍存在着不均匀的通道冗余。将隐层表示的前30个通道分别设置为0,之后转换回RGB域,图2左侧显示缺少不同通道导致的PSNR损失。选择通道29为例(缺少29导致的PSNR损失最多),应用不同缩放因子,得到结果如图2右侧。可以得出,不同通道的重要性不同,而且可以通过缩放控制重建质量。之前的许多工作忽略了不同通道的不均匀冗余。
根据以上性质设计增益单元,隐层变量
,
,增益单元由增益矩阵组成
,其中n代表增益向量数目。增益向量可以表示为
,s是增益向量序号。隐层重调整操作描述如下:
通过这种方法,隐层表示的量化损失可以通过增益向量逐通道地精细调整。网络被引导着为影响重建质量大的通道分配更多的比特。增益单元计算过程如下:
代表逐通道相乘。需要注意的是,增益矩阵与自编码器网络联合训练以保证两者兼容。
2.2 离散可变比特率
量化过程公式化:
在将重调整、量化之后的结果送入decoder之前,添加可训练反增益单元,将
映射回与
相同的数字间隔。反增益矩阵
,反增益向量
,反增益过程:
训练过程中,每一对增益向量对应预定义好的拉格朗日乘子有限集合
中一个特定的拉格朗日乘子
,增益、反增益向量和拉格朗日乘子与下标s绑定在一起,离散可变比特率框架(DVR)损失函数如下:
推理过程中,更改s获得对应增益、反增益向量对。通过这种方法,可以获得R-D曲线上几个离散点的压缩性能,R-D曲线范围取决于拉格朗日乘子的数量和值。
2.3 指数插值
增益单元对保证和
的数字间隔相同(?),可以公式化为:
和
代表不同比特率的增益向量对。根据上式,可以获得指数插值公式:
其中,是生成增益向量对,
是插值系数,控制对应生成增益向量对的比特率。
是实数,使用指数插值可以实现
之间任意比特率,实现了连续比特率控制方法(CVR),如图4所示,CVR扩大了覆盖范围同时不减R-D表现。
2.4 超先验的可变比特率
超先验被建模为无参数、全分解熵模型,比特率自适应也可以应用于超先验(HCVR),整体结构如下:
2.5 高斯熵模型
目前主流熵模型:
但是对称高斯熵模型自由度不够,对于不满足对称高斯分布的自然图片可能产生较大估计误差,因此使用非对称高斯熵模型[1]如下:
其中代表隐层表示的左右尺度参数。所有参数包括
都是可训练的,当左右尺度参数相同的时候退化为对称高斯分布。因此更灵活精确。
2.6 网络结构
AG-VAE框架如图6。采用自回归框架作为基础框架并添加增益单元对,使用非对称高斯作为熵模型。隐层变量的通道数设置为192,卷积核大小为
。采用一些优化方法:注意力模块、通用量化[2]、平行上下文模型。
3 实验
3.1 实验细节
3.2 表现对比
率失真表现
只使用一个模型获得R-D曲线,PSNR表现sota,MS-SSIM表现与Cheng相近。
结果可视化
AG-VAE结果回复更多细节,减少了模糊伪影。
3.3 可变比特率方法对比
率失真表现
与原方法多模型曲线贴合,范围大,无性能损失。
增加的计算与参数
增加参数少,计算快。
3.4 消融学习
增益单元的泛化性
因为无需修改网络结构,增益单元几乎可以用于所有基于VAE的图像压缩方法。实验如图10:
HCVR方法
证明HCVR相对于CVR的优越性,如图11,使用HCVR略好于CVR。
非对称高斯模型
SG对称高斯模型,AG非对称高斯模型:
[1]Nafaa Nacereddine, Salavatore Tabbone, Djemel Ziou, and Latifa Hamami. Asymmetric generalized gaussian mixture models and em algorithm for image segmentation. In ICPR, 2010.
[2]Jacob Ziv. On universal quantization. IEEE Transactions on Information Theory, 1985.