⭐HyperTransformer: A Textural and Spectral Feature Fusion Transformer for Pansharpening CVPR 2022-CSDN博客

Abstract

Pansharpening旨在将注册的高分辨率全色图像 (PAN) 与低分辨率高光谱图像 (LR-HSI) 融合，以生成具有高光谱和空间分辨率的增强 HSI。现有的全色锐化方法忽略了使用注意力机制将 HR 纹理特征从 PAN 转移到 LR-HSI 特征，从而导致空间和光谱失真。在本文中，我们提出了一种新的全色锐化注意机制，称为 HyperTransformer，其中 LR-HSI 和 PAN 的特征分别被表述为转换器中的查询和键。通过计算查询与键之间的相似度（通常使用点积或其他相似度度量），生成注意力权重。这些权重表示了 LR-HSI 特征与 PAN 特征之间的相关性。HyperTransformer由三个主要模块组成，分别是PAN和HSI的两个独立特征提取器、多头特征软注意模块和空间光谱特征融合模块。这样的网络通过学习PAN和LR-HSI的交叉特征空间依赖关系和远程细节，提高了泛锐化HSI的空间和光谱质量度量。此外，HyperTransformer 可以在主干的多个空间尺度上用于以获得更好的性能。在三个广泛使用的数据集上进行的大量实验表明，HyperTransformer 在空间和光谱质量度量上都比最先进的方法取得了显着的改进。

Motivation

现有方法通常通过以下两种方式简单的连接PAN和LR-SHI：

**图像域：**直接在图像级别合并
**特征域：**在特征提取后合并

新提出的 HyperTransformer 方法利用 LR-HSI、PAN、和 PAN 的特征表示，将其作为查Queries、键Keys和值Values放入一个注意力机制中，目的是转移与 LR-HSI 最相关的高分辨率（HR）纹理特征到光谱特征中。通过使用注意力机制，优化了特征的提取和转移过程，相较于传统方法，能够更有效地整合信息，提高图像处理的准确性和质量

Method

Module

**1. Feature Extractors for PAN and LR-HSI 特征提取器FE：采用 VGG-like network architecture，**从 PAN（全色图像）和 LR-HSI（低分辨率高光谱图像）中提取特征。

**2. 多头特征软注意力模块MHFSA：**通过多头软注意力机制，增强特征的表示能力，使模型能够关注到不同的特征维度，从而更好地捕捉重要信息。

提取全局描述符：对于查询（Q）、键（K）和值（V）中的每个特征，利用 N 个全连接层导出一组全局描述符。这些描述符提供了特征的高层次表示。
**特征交叉相关嵌入FCCE：**在多头特征软注意力机制中提取查询（q）与键（k）之间的相关性
计算多头特征软注意力MHFSA：对每个描述符并行计算特征软注意力。这一步骤通过关注不同特征之间的关系，调整特征的权重。

MHFSA 是一种有效的机制，通过并行处理和特征拼接，优化了特征的表示能力，使得图像融合任务的效果更加出色。

软注意力：权重是连续的，可以对所有特征进行平滑的加权处理，通常使用 Softmax 函数确保权重归一化到0到1之间，且总和为1。

硬注意力：选择某些特征进行处理，通常是离散决策，难以训练（需用强化学习等方法）

多尺度特征融合MSFF：传统全色融合方法通常只在高分辨率（HR）尺度上融合来自 PAN 的纹理特征。这种方法的局限在于它未能充分利用低分辨率特征与全色图像之间的关系，导致融合效果不佳，而HyperTransformer 提供了一种在多个空间尺度上注入高分辨率纹理细节的方式。具体来说，纹理细节在以下三个空间尺度上注入：

**3. 纹理-光谱特征融合模块：**将提取的纹理特征与光谱特征进行融合，优化信息的整合，以提升最终输出的质量。

特征拼接：通过多头特征软注意力（MHFSA）获得的纹理丰富且光谱相似的特征表示 T 与主干网络中提取的光谱特征 F 进行拼接 Concat(T,F)
卷积和批归一化：捕捉局部特征，减少内部协变量偏移，使得模型更稳定。
输出特征：最终的特征F~ 是经过融合和规范化的结果，用于主干网络以生成pansharpened HSI

Optimisation

**应用于三个尺度：**HyperTransformer 在三个不同的尺度上应用，分别为 ×1、×2、和 ×4。这种多尺度处理有助于捕捉不同层次的特征信息。
**优化损失函数：**HyperTransformer 的优化使用了三种损失函数

重构损失 (Reconstruction loss)：主要使用 L1 损失，确保生成的高分辨率图像与真实图像之间的差异最小化。
VGG 感知损失 (VGG perceptual loss)：通过预训练的 VGG 网络提取特征，比较生成图像与真实图像在特征空间中的差异，从而提高生成图像的视觉质量。
转移感知损失 (Transfer perceptual loss)：旨在优化图像的感知质量，确保生成的图像在视觉上更接近于真实图像。

Experiment

Implementation

高光谱图像数据集

Pavia Center
Botswana
Chikusei

评价指标

Cross-Correlation (CC)
Spectral Angle Mapping (SAM)
Root Mean Square Error (RMSE)
Reconstruction Signal to Noise Ratio (RSNR)
Errur Relative Globale Adimensionnelle Desynthese (ERGAS)
Peak Signal to Noise Ratio (PSNR)

对比方法

**经典方法：**PCA、GFPCA、BF、BFS、SFIM、GS、GSA、MGH、CNMF、MG 和 HySure
基于 ConvNet 的方法：HyperPNN、PanNet、DHP-DARN（简称 DARN）、DIP-HyperKite（简称 HyperKite）、SIPSA 和 GPPNN。

Ablation

**MAE（Mean Absolute Error，均方绝对误差）**是一种常用的回归性能评估指标，包括高光谱图像处理等领域，用于衡量预测值与实际值之间的差异。MAE 使用绝对值而非平方值，因此对异常值（outliers）的影响较小。在高光谱图像处理任务中，MAE 常用于评估重建图像与参考图像之间的相似度，帮助评估模型的性能。

增加全局描述符N

通过对全局描述符数量的分析，研究指出了最佳设置，增强了 HyperTransformer 在高光谱图像处理中的有效性和效率

多尺度融合

传统的全色增强算法通常仅在单一空间尺度（例如×4）上融合全色图像（PAN）和低分辨率高光谱图像（LR-HSI）特征，本文提出的全色增强网络在三个不同的空间尺度上注入来自 PAN 的纹理特征

Limitations

关于均方绝对误差（MAE）的观察突出了紫外（UV）和红外（IR）波段的特定挑战：

UV 和 IR 波段的高 MAE：从图中可以看出，UV 波段（大约波段 1-10）和 IR 波段（大约波段 90-104）周围的 MAE 显著较高。这表明模型在这些区域的预测与实际值之间存在较大偏差。
PAN 图像中缺乏 UV 和 IR 特征：造成这种高 MAE 的主要原因可能是全色（PAN）图像中缺少 UV 和 IR 光谱信息。PAN 图像通常捕捉的是更广泛的可见光谱，但不包括准确表示 UV 和 IR 波段所需的特征。
需要进一步研究：为了提高模型在这些光谱波段的性能，需要进行更多的研究。这可能包括：