HSR-Diff: Hyperspectral Image Super-Resolution via Conditional Diffusion Models
2023 IEEE/CVF
2380-7504/23/$31.00 ©2023 IEEE DOI 10.1109/ICCV51070.2023.00652
论文作者:Chanyue Wu,Dong Wang,Hanyu Mao,Ying Li
作者单位:Northwestern Polytechnical University; Yan’an University
论文链接:http://arxiv.org/abs/2306.12085v1
方向:图像超分辨率
应用:高光谱图像超分辨率
笔记总结
研究背景:
以往的HSI超分辨率方法中:
- 基于GAN的:需要精心设计正则化和优化技巧,以驯服优化不稳定性并避免模式崩溃。
- 条件扩散模型:尽管条件扩散模型易于定义且训练高效,但据我们所知,还没有证据表明它们能够合并LR-HSI和HR-MSI。没有专门研究HSI-SR的问题。且通常是串联的去噪网络,可能阻碍在LR HSI和HR MSI中提取有用的空间光谱信息。
- 一般的 Transformer只关注像素之间的空间关系,而忽略了光谱维度。
研究方法:
diffusion和transformer。
HSI Diff分为了两个过程,一个将HR-HSI Z0扰动为噪声的正向过程,以及一个将噪声转换回HR-HSI Z0的反向过程。
小结:
1、 提出了一个HSI-SR的条件扩散模型
2、 引入一个CDFormer,细化有噪声的HRHSI。
条件扩散模型
- 提出了一个HSISR的条件扩散模型
- 引入一个CDFormer,细化有噪声的HRHSI
HSR Diff利用了两个过程:一个将HR-HSI Z0扰动为噪声的正向过程,以及一个将噪声转换回HR-HSI Z0的反向过程。
条件去噪 CDFormer:
双流架构,堆叠的“Spatio-Spectral Transformer Layers (S2TLs).”
-
SR stream中的Transformer,空间自注意力和光谱自注意力。
-
Denoising stream中的Transformer,添加了NLE(噪声嵌入向量)。NLE采用正弦位置编码将噪声水平嵌入模型之中。
NLE的公式如下:
Progressive Learning Strategy
提出背景:一方面,在固定大小的图像块上训练所提出的CDFormer可能无法适当地反映全局关系,这可能会导致在使用全分辨率图像时性能不佳。另一方面,在训练阶段,由于内存有限,CDFormer无法上传到图形处理单元(GPU)。
实施:在初始阶段,网络使用较小的图像块进行训练。随后,随着训练的进行,我们过渡到在最后的训练阶段使用更大的补丁,并最终使用全分辨率图像。
研究结果:
数据集:CAVE [38], PaviaU [21], Chikusei [39], and HypSen [37]
SOTA:采用六种最先进的HSI-SR方法进行比较,包括:UTV-TD[34]、UAL[43]、BRResNet[16]、Fusionformer[15]、CMHF Net[31]和UAL-DMI[28]。UTV-TD是一种基于张量的技术;UAL、BRResNet、Fusionformer和CMHF Net属于基于DL的方法类别;UAL-DMI可视为UAL的升级版本。
消融: