目录
STAGE 1: Learn CDP from ILR and IHR
GitHub - I2-Multimedia-Lab/CDFormer
现有的盲图像超分辨率(BSR)方法侧重于估计核或退化信息,但长期以来一直忽略了基本内容细节。在本文中,我们提出了一种新颖的 BSR 方法,即内容感知退化驱动 Transformer (CDFormer),以捕获退化和内容表示。然而,低分辨率图像不能提供足够的内容细节,因此我们引入了一个基于扩散的模块CDF或merdiff来学习低分辨率图像和高分辨率图像中的内容退化先验(CDP),然后在给定低分辨率信息的情况下近似真实分布。此外,我们应用自适应 SR 网络 CDF 或merSR,有效地利用 CDP 来细化特征。与之前的基于扩散的 SR 方法相比,我们将扩散模型视为估计器,可以克服昂贵的采样时间和过度多样性的限制。实验表明,CDFormer 可以优于现有方法,在盲设置下在各种基准上建立了新的最先进的性能。
Motivation
- **计算成本高:**将DM视为主要的超分辨率网络需要进行大量的推理步骤(大约50到1000步),这在计算上非常昂贵,不适合实时应用。虽然可以通过减少迭代次数来缓解这个问题,但这会导致超分辨率结果的质量下降。
- **引入不良伪影:**单步噪声预测模型固有的误差传播会导致不希望的伪影,如联合错位或纹理扭曲。例如,DCLS(一个最先进的KP方法)在PSNR和SSIM方面显著优于DP方法(如DASR和KDSR)。然而,尽管StableSR在DM基础的超分辨率方法中处于领先地位,但它也会遇到纹理不正确(例如,将椭圆重构为正方形)和细节丢失(如镜子中的人消失)的问题。
我们怀疑StableSR中错误纹理结果可能与预训练DM的多样性过大有关,这对超分辨率任务来说是过度的。由于给定图像的低质量,预训练DM中的先验可能会误解给定的低分辨率图像,从而在错误的上下文中进行重构。
Contribution
- 我们引入了一个内容降解先验(CDP)生成模块。CDP在第一阶段通过高分辨率(HR)和低分辨率(LR)图像对进行学习,而在第二阶段则仅通过基于扩散的估计器从LR图像重新生成。
- 我们提出了一种CDP引导的超分辨率网络,其中CDP通过可学习的仿射变换和交互流机制注入,以改善高频和低频细节的表示。
- 实验结果证明了CDFormer的优越性,使其达到了新的最先进性能。通过内容估计,CDFormer即使在严重降解的图像中也能实现前所未有的超分辨率效果。
本论文旨在解决盲超分辨率方法在估计核或退化信息时忽略了内容细节的问题。论文提出了一种新的盲超分辨率方法CDFormer,旨在捕捉退化和内容表示。同时,论文还试图解决低分辨率图像无法提供足够内容细节的问题,并引入了基于扩散的模块CDFormer_diff来学习低分辨率和高分辨率图像中的内容退化先验,并仅根据低分辨率信息近似实际分布。此外,论文还应用了自适应SR网络CDFormer_SR,有效利用CDP来改进特征。
Method
STAGE 1: Learn CDP from ILR and IHR
- 训练GT编码器(EGT):
- 学习CDP,从HR和LR图像对中提取内容和降解信息。
- 通过重建损失(L1损失)进行优化,目标是将重建的SR图像与HR图像尽量接近。
- 重建损失(Lrec):用于第一阶段,优化重建的SR图像与真实HR图像之间的差异。
在这一阶段,EGT将被训练以在高分辨率(HR)和低分辨率(LR)图像的监督下构建真实数据分布,同时确保CDFormerSR有效利用估计的表示。EGT的设计目的是从LR和HR图像对中提取降解信息,以及从HR图像中提取内容细节,这就是所谓的CDP,表示为:
CDFormerSR网络的目标是通过CDP的指导重建高分辨率图像。为了增强表示能力,CDRB结合了空间注意力和通道注意力机制,并通过交互机制进一步结合CNN和Transformer特征,使CDRB模块能够自适应地精炼高频和低频信息。
EGT由多个残差块和一个多层感知机(MLP)层组成,如图2右侧所示。CDP与CDF ormerSR中的特征融合通过可学习的通道仿射变换在注入模块CDIM中完成,公式为:
其中,F和F′∈RH×W×C分别是输入和输出特征图,⊙表示元素级乘法,Norm(⋅)表示层归一化。
CDFormerSR网络的目标是通过CDP的指导重建高分辨率图像。为了增强表示能力,CDRB结合了空间注意力和通道注意力机制,并通过交互机制进一步结合CNN和Transformer特征,使CDRB模块能够自适应地精炼高频和低频信息。
其中,Z0是EGT预测的CDP,CDIMi,j是第 i 个CDRB中的第 j 个CDIM。为了确保表示的有效学习,我们应用了两种自注意力和深度卷积操作。具体来说,我们首先利用空间窗口自注意力(SW-SA),计算非重叠窗口内的注意力得分。
STAGE 2: Generate CDP from LR
-
初始CDP的生成:复用第一阶段训练得到的编码器(EGT),生成初始的CDP Z0∈RCz。这个CDP被认为是内容和降解的真实表示。
-
前向扩散过程:向初始CDP Z0 添加高斯噪声,生成带噪声的表示 ZT:
-
反向过程:
- 使用一个与EGT相似的编码器(ELR),只包含降解分支,训练它从LR图像生成一维条件向量 c∈RCz。
ELR(与EGT相似的编码器)专注于从低分辨率(LR)图像中生成一维条件向量c∈RCz
- 这个条件向量融合到扩散模型的每一步反向采样过程中,引导模型基于LR图像生成更好的CDP表示。
- 训练步骤的不同:
- 在每个训练步骤中,CDFormerdiff执行整个采样过程,并进行 T 次迭代,与传统扩散模型不同,后者仅最小化单个扩散步骤的损失 ∣∣ϵ−ϵθ(xt,t,c)∣∣
- 在每个训练步骤中,计算估计的CDP Z^0
在这一段中,描述了CDFormer方法中如何利用扩散模型生成的表示 hat{Z}_0 来重建低分辨率(LR)图像中丢失的信息。以下是具体的步骤和过程:
生成表示与损失计算
-
目标:生成的表示 \( \hat{Z}_0 \) 旨在重建LR图像中丢失的信息。
-
损失计算:计算从EGT获得的CDP Z_0 和通过扩散模型获得的表示 hat{Z}*0 之间的L1距离,*这个损失函数用于衡量生成的CDP与真实CDP之间的差距,从而引导模型调整生成过程。
联合训练
-
联合训练:CDFordiff和CDFormerSR将在训练时共同优化,通过最小化以下损失函数。这里,L_{rec} 是重建损失,alpha_{rec}是权重因子,用于平衡两个损失之间的影响。
-
CDP的注入:在第二阶段,使用通过扩散模型预测的CDP hat{Z}_0 注入CDFormerSR,而不是第一阶段中的Z_0。
训练与推理过程
- 训练阶段:在训练过程中,hat{Z}T 实际上是从高分辨率图像 I{HR} 得到的,用于提升模型的学习能力。
- 推理阶段:在推理时,模型从高斯噪声开始执行反向扩散过程,即 hat{Z}_T~N(0, 1)。从LR图像中获得的条件向量 c 也会参与到反向扩散过程中。
Experiment
Implementation
数据集
- 训练数据集:
- DIV2K:这是一个广泛使用的高分辨率图像数据集,包含2,000张高质量图像,适用于超分辨率任务的训练。
- Flickr2K:另一个常用的数据集,由Flickr网站收集的2,000张图像组成,适用于超分辨率模型的训练。
- 测试数据集:
- Set5:包含5张经典的测试图像,常用于评估超分辨率算法的性能。
- Set14:由14张图像组成,提供多种类型的图像以测试模型的适应性。
- B100:包含100张图像,通常用于评估超分辨率模型的效果。
- Urban100:专注于城市景观的100张图像,适合测试模型在复杂场景中的表现。
评估指标
- PSNR(峰值信噪比):衡量重建图像与原始图像之间的误差,数值越高表示重建质量越好。
- SSIM(结构相似性指数):评估图像的感知质量,考虑亮度、对比度和结构信息,数值越接近1表示质量越高。
比较方法
- 扩散基础的超分辨率方法:
- SR3:采用去噪扩散概率模型(DDPM)进行图像超分辨率重建。
- StableSR:使用潜在扩散模型(LDM)进行重建。
- 其他基准方法:
- DCLS:一种先进的核预测(KP)方法,作为参考。
Related work
-
“Blind Image Super-Resolution with Spatially Variant Degradations”;
-
“Blind Super-Resolution Kernel Estimation using an Internal-GAN”;
-
“Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels”。