S2LIC: Learned Image Compression with the SwinV2Block, Adaptive Channel-wise and Global-inter Attention Context
论文地址:https://arxiv.org/pdf/2403.14471
代码地址:https://github.com/wyq2021/s2lic
一 简介
作者提出了一个自适应通道和全局注意力交互上下文(ACGC)熵该模型可以在层间和层内环境中有效地实现双特征聚合。具体来说,我们划分潜在表示然后在并行棋盘上下文中应用ACGC模型,以实现更快的解码速度和更高的率失真性能。我们在自适应全局切片间利用可变形注意力上下文,以基于实际的空间相关性和上下文动态地细化注意力权重。此外,在主转换结构中,我们引入了残差SwinV2 Transformer模型来捕获全局特征信息,并利用密集块网络作为特征增强模块,以改善图像的非线性表示转型结构。
二 内容
2.1 目前方法的缺陷
熵模型是用来来估计潜在表示的概率分布。然而,大多数熵模型主要关注信道和空间信息之间的一维相关处理。 作者提出了一个自适应通道和全局注意力交互上下文(ACGC)熵该模型可以在层间和层内环境中有效地实现双特征聚合。
2.2 本文贡献
1.我们提出了一种自适应通道和全局注意力交互上下文模型(ACGC),有效地整合了不同切片中的通道和全局空间信息。此外,我们利用可变形自适应全局注意力交互机制中的注意力,以动态优化注意力权重,响应空间关系以及背景。
2.我们将ACGC集成到一个并行棋盘熵模型中,结合了超优先级侧信息、通道上下文和切片间
全球空间信息。它实现了更快的解码速度和更高的率失真性能。
3.基于ACGC,我们进一步提出了S2LIC模型。我们采纳残差SwinV2变换器块(RS2TB)来实现非线性变换,而不是利用堆叠的卷积残差块。在RS2TB之前引入了一种基于密集块级联的特征增强模块,用于特征重用和非线性图像表示。
4.网络结构:
SwinV2 Transformer Block (RS2TB):
ACGC:自适应信道和全局上下文间模型
2.3 Checkerboard 上下文模型
目前方案的上下文模型包括通道上下文模型和空间上下文模型。这些上下文方法缺乏有效性信道和空间特征的聚合,从而未能充分利用这些特征之间的相关性以提高压缩效率 。同时潜在表征中仍然存在冗余,导致压缩效率降低。为了减轻这些限制,我们提出了自适应信道和全局上下文间熵模型,可以在片间和片内上下文中有效地实现信道和空间特征聚合。在我们的方法中,潜在表示最初分为几片。每个切片进一步细分为两部分:锚和其在棋盘上下文模型[12]中用于并行解码。在此之后,我们采用了自适应通道模块在应用时提取不同切片内的通道上下文信息跨切片的自适应全局交互模块,用于对全局空间上下文进行建模。
2.4 训练细节和评估
Training Details:在前面的工作基础上,我们选择了LIU4K[22],ImageNet[23]和COCO2017[24]数据集,特别是选择具有以下特征的图像分辨率超过480×480用于训练。培训过程涉及两个方面阶段:最初,我们将图像随机裁剪成256×256×3的补丁前1.6M步,随后用于更大的图像(最小448像素)宽度和高度),我们将它们裁剪成448×448×3块。该模型在开源的CompressAI PyTorch库上实现[25]。所有实验均在RTX 4090 GPU上进行了500次迭代。训练过程初始学习率使用10-4,使用ADME优化器具有超参数β1=0.9、β2=0.999的优化器。此外batch_size设置为8。我们使用均方误差(MSE)和MS-SSIM[27]作为质量优化模型的指标。对于MSE,选择参数λ从{0.0018、0.0035、0.0075、0.013、0.025、0.048}的集合中。而对于MS-SSIM,λ是{5,16,36,64,80}的集合。通道数量为设置为N=192和M=320用于训练。其他参数如下设置在[6]中。
Evaluation::Kodak [28], Tecnick [29] andCLIC professional validation datasets [30]。Kodak数据集由24个分辨率为512×768或768×512的图像。Tecnick数据集包含100张高分辨率图像,每张大小为1200×1200。至于
CLIC专业验证(CLIC Pro)数据集,由41个2K分辨率的高质量图像。我们用一些方法来评估我们的模型最近学习的图像压缩方法和一些传统的图像编解码器通过使用PSNR和MS-SSIM[27]。
三 性能
3.1 失真性能
我们将S2LIC模型与最新最先进的模型进行比较(SOTA)学习了图像压缩模型。传统的图像压缩编解码器,包括VTM-17.1[3]、BPG[2]、JPEG2000和JPEG,都是根据PSNR和MS-SSIM指标进行评估的。为了更清楚地比较,我们将MS-SSIM值转换为-10 log10(1-MS-SSIM)。速率失真
Kodak 数据集的性能如图5所示。我们的方法在PSNR方面超越了VTM-17.1,并显示出0.3至0.6 dB的改善超过GLLMM[4]。
Tecnick和CLIC Pro数据集的性能如图6所示,显示了类似的性能。
此外,我们提出BD Rate[13]作为Kodak、Tecnick 和CLIC的定量指标表2中的Pro数据集,以VTM-17.1为锚(BD率=0%)。我们的S2LIC在这些数据集上将BD率降低了8.87%、10.15%和7.48%
潜在特征图可视化:
我们比较了Cheng’20[10]和ELIC[8](通过MSE优化)的两个模型。他们在分析转换模块中使用相同的注意事项,但有所不同程’20采用GMM概率模型和ELIC SCCTX型号。在我们的模型中,我们用RS2TB替换了注意力模块并在熵模块中使用所提出的ACGC。S2LIC功能地图有效地捕捉了局部特征,如顶部的位置塔和窗户。此外,图像的边缘更清晰。简单天空和草地等区域在特征图中的能量集中度较低,这表明分配给这些区域的比特较少。
3.2 时间复杂度性能
在S2LIC中,我们为ACGC使用了一个并行棋盘上下文模型将潜在表示y分为十个切片。我们雇佣了NVIDIAGTX 2080Ti GPU和2.9GHz Intel Xeon Gold 6226R CPU有待评估。
关于表1中编码和解码时间的复杂性,我们进行了比较我们的模型与其他最近的方法。可以看出,VTM-17.1采用了编码时间最长,但编码后解码速度很快,只需要0.6秒。Cheng’20[10]、Fu’23[33]和GLLMM[4]使用了自回归熵编码的上下文模型,导致更长的解码时间。De16
表1: Kodak数据集最近工作的复杂性比较结果。Enc.Total和Dec.Total分别表示编码和解码的总时间。尽管取得了最先进的性能,GLLMM[4]型号的速度明显受到其复杂性增加的影响。我们的模型已经展示显著的结果,编码和解码时间仅为0.31和0.38秒
3.3 消融实验
3.3.1.验证ACGC模块来研究AC和AG组件的影响
实验结果表明,在去除ACGC后模块,并依赖于超优先级参数作为解码上下文
BD利率上升了7.46%。这表明它的性能较差比VTM。在添加AC、AG和ACGC模块后,BD速率
分别下降了4.11%、0.19%和6.27%。值得注意的是尽管添加了不同的组件,但编码和解码时间没有显著增加。因此,ACGC上下文模型证明最先进的性能。
3.3.2.验证SwinV2变换器代替传统的堆叠残差块的影响
在S2LIC中,我们用SwinV2变换器代替传统的堆叠残差块,实现了图像的非线性变换。我们首先展示不同的组件分析转换模块。在另一种情况下在模型参数相同的情况下,我们分别使用“基于CNN”、“基于残差SwinV2”和“基于DB+残差SwinV2”对三种模型进行了比较。如图8(左)所示,实验结果表明SwinV2注意力在捕获全局特征信息方面表现更好与基于CNN的模型相比PSNR。此外,基于DB块的特征增强模块导致大约0.17-0.2dB的增加从而提高了率失真性能。此外,我们对主编码器中四种不同数量的RS2TB进行了详细比较,具体结果如图所示。8(右)。只配置了一个RS2TB,性能很差。增加到两个RS2TB可以将性能提高约0.2 dB。然而,当RS2TB的数量达到四个时,增加更多的RS2TB并不能显著提高性能。相反,它导致模型复杂性和计算时间大幅增加。因此,为了平衡性能和复杂性,我们选择了三个RS2TB作为主要转换模块,以实现最佳压缩结果。
4.结论
我们提出了ACGC模型来有效地实现双切片间和切片内上下文中的特征聚合。ACGC
该模型被合并到一个并行棋盘上下文模型中,以实现更快的解码速度和更好的率失真性能。此外,
我们还在主编码器和主解码器网络中加入了残差Swinv2变换器块和非线性特征增强模块以进一步减少潜在表示的空间冗余。这个实验结果表明,我们的方法取得了更好的性能与最好的传统编解码器VTM-17.1和一些最近基于学习的图像压缩方法在PSNR和MS-SSIM指标上相比。在未来的工作中,我们将设计更高效和有效的网络框架,以增强率失真性能。此外,我们将减少编码通过设计更高效和可并行化的熵来减少解码时间模型。
转发,如有侵权,请联系删除
端到端图像压缩《Checkerboard Context Model for Efficient Learned Image Compression》
端到端图像压缩《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》
端到端的图像压缩《Learning Scalable constrained Near-lossless Image Compression via Joint Lossy Image cmp》
端到端的图像压缩----《End-to-End Optimized Versatile Image Compression With Wavelet-Like T ransform》论文笔记
端到端的图像压缩----《Channel-wise Autoregressive Entropy Models For Learned Image Compression》论文笔记
端到端的图像压缩----《CompressAI: a PyTorch library for image research》论文笔记
图像压缩-《Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Attention Modules》
端到端的图像压缩----《Joint Autoregressive and Hierarchical Priors for Learned Image Compression》 论文笔记
端到端的图像压缩----《Variational Image Compression With A Scale Hyperprior》论文笔记
端到端的图像压缩------《End-to-end optimized image compression》笔记
端到端的图像压缩----码率估计