介绍
这篇论文主要讲了一种新的统一图像融合框架 TITA,目的是解决现有图像融合方法的一些问题,提升融合效果和模型泛化能力。
关键词
统一图像融合;任务不变交互;任务特定适应;
交互增强像素注意力(IPA);基于操作的自适应融合(OAF);快速自适应多任务优化(FAMO);
- 统一图像融合:旨在用一个通用框架处理多种融合任务,将不同融合任务当作统一问题,共享网络结构和目标,整合多源图像互补信息,提升图像质量。但该方法容易忽略不同任务的特定特征,影响最终效果。
- 任务不变交互:指探索不同图像融合任务之间的共享特性,像如何有效提取和利用多源图像的互补信息。文中通过 IPA 模块增强像素级交互,加强跨源特征的联系,提升对互补信息的提取能力,促进不同任务间的协同合作,增强模型的泛化性。
- 任务特定适应:强调针对不同图像融合任务的独特物理特性,动态调整融合策略。文中的 OAF 模块,能根据任务特征动态调整融合操作的权重,在不依赖明确任务识别的情况下,实现对不同任务的适配,满足特定任务的特征融合需求。
- 交互增强像素注意力(IPA)模块:是为实现任务不变交互提出的创新模块。它基于像素注意力机制改进,去除可能导致信息损失的直接噪声注入,强化跨注意力操作。通过这种方式,它能让模型更关注多源图像间的互补信息,增强多源图像特征的交互,提高融合效果。
- 基于操作的自适应融合(OAF)模块:用于实现任务特定适应。该模块包含 HPF、ADD、MUL 三个并行操作分支,分别负责捕捉高频细节、增强整体信息、促进非线性特征交互。通过动态权重预测网络,依据任务特征预测权重,确定各分支的最佳权重分配,完成自适应的特征融合。
- 快速自适应多任务优化(FAMO)策略:用于解决不同融合任务在联合训练时的梯度冲突问题。将多任务优化视为寻找帕累托最优解的过程,通过动态调整不同任务的梯度权重,平衡不同任务的优化,提升模型在各个任务上的性能,且计算开销小、易于实现。
网络架构
总体架构
TITA框架基于SwinFusion [30]构建,包括两个阶段:任务不变交互和任务特定自适应。任务不变交互阶段包括L个堆叠的交互增强SwinFusion(ISF)模块,每个模块都包含交互增强像素注意力(IPA)模块。通过提出的基于操作的自适应融合(OAF)模块实现了特定任务的自适应。
回顾swin-fusion网络结构
特征提取
shallow features Extraction包含两个卷积层,其内核大小为3 X 3,步长为1,该层用于提取浅层特征,并且将浅层特征的特征数据映射到高维特征,从而使得后期特征的融合和提取有更好的效果。
Deep Feature Extraction包含4个Swin Transformer层,在shallow features Extraction层的基础上,提取包含全局信息的特征。第一步就是将整个图像划分为多个window,这里的窗口大小设置为8 X 8,即每个window包含64个patch,而后在每个window中进行多头自注意力计算,之后在进行移动窗口,移动的距离为window_size的二分之一,而后继续上述操作,直到完成深层特征的提取。
特征融合
设计了注意力引导跨域融合模块(attention-guided cross-domain fusion module ,ACFM)用来进一步挖掘域内和域间的全局上下文信息。
征融合包含两个块,两个块的结构是相同的,如上图。
每个块中包含两个swin transformer块,MCA和MSA只是名字不同,内部结构是完全相同的,只是MSA输入的KQV都是来自单个图像的特征,而MCA输入的KQV则是来自不同的图像的特征。例如KV来自红外图像的特征,而Q来自可视图像的特征,在经过一波多头注意力的计算之后,此时红外图像的特征信息就受到了可视图像特征信息的影响,从而可以认为两类特征信息发生了融合,这就是论文中的融合模块。
改进
论文对 SwinFusion 模块进行了关键修改,将其所有的 intra - domain fusion(域内融合)替换为 inter - domain fusion(域间融合)。