PIAFusion
A progressive infrared and visible image fusion network based on illumination aware
研究背景及问题定义
红外-可见光图像融合旨在生成一幅同时包含显著目标和丰富纹理细节的融合图像,即使在光照极端的条件下也能良好工作。然而,传统融合方法通常忽视了场景的光照变化对融合结果的影响。未考虑光照因素的经典算法(如DenseFuse、FusionGAN等)容易在白天丢失细节或在夜间弱化目标信息。PIAFusion提出了一种光照感知的融合策略,通过估计光照条件来自适应地融合不同模态的信息,从而同时保持热目标的对比度和背景纹理.
照明不平衡的一个例子。 从左到右:红外图像,可见光图像,融合结果DenseFuse [6], fusongan[7],和我们提出的PIAFusion。 可见图像包含丰富的信息,如白天的纹理细节(上一行)。 但突出的目标和纹理都包含在夜间的红外图像中(下一行)。 现有的方法忽略了光照不平衡问题,导致细节丢失和热目标退化。 该算法可以根据光照条件自适应地整合有意义的信息。
方法设计
我们设计了一个光照感知子网络来估计光照分布并计算光照概率。此外,我们利用光照概率来构建一个光照感知的损失来指导融合网络的训练。跨模态差分感知融合模块和中途融合策略在光照感知损失的约束下,将共同信息和互补信息完全融合。
针对光照不平衡影响信息分布的问题,设计光照感知子网。该子网以可见光图像为输入,输出图像属于白天和夜晚的概率(P_{d})、(P_{n}) ,并依此计算出红外图像和可见光图像在融合过程中的贡献权重(W_{ir})、(W_{vi})。同时,构建渐进融合网络,先利用特征编码器(E_{F})提取红外和可见光图像的深层特征,再通过跨模态差异感知融合(CMDAF)模块,将特征分解为公共部分和互补部分,以通道加权的方式充分整合互补信息。最后,采用中途融合策略,在通道维度拼接特征,经图像重建器(R_{I})得到融合图像。
网络架构
- 光照感知子网设计:考虑到光照不平衡会对图像信息分布产生影响,研究团队设计了一个光照感知子网。对于给定的可见光图像(I_{vi}),光照感知子网(N_{IA})会输出该图像属于白天和夜晚的概率,分别用(P_{d})和(P_{n})表示 。由于白天时可见光图像包含更多信息,夜晚时红外图像包含更多有意义信息,因此这两个概率从侧面反映了源图像中信息的丰富程度。基于此,通过一个简单的归一化函数计算出红外图像和可见光图像在融合过程中的贡献权重(W_{ir})和(W_{vi}),以此来调整不同光照条件下源图像对融合结果的贡献。
- 特征提取与融合:设计了一个渐进融合网络。首先利用特征编码器(E_{F})分别对红外图像(I_{ir})和可见光图像(I_{vi})进行处理,提取出对应的深层特征(F_{ir})和(F_{vi})。在提取过程中,将第i个卷积层从红外和可见光图像中提取的特征分别记为(F_{ir}{i})和(F_{vi}{i})。
- 跨模态差异感知融合(CMDAF)模块:为了更好地补偿不同模态图像之间的差异信息,提出了 CMDAF 模块。该模块基于一种类似差分放大电路的原理,将特征分解为公共部分和互补部分。通过公式对(F_{ir}{i})和(F_{vi}{i})进行处理,实现对不同模态互补信息的充分整合。具体来说,先对互补特征进行全局平均池化压缩成向量,再通过 sigmoid 函数将其归一化到 [0, 1] 生成通道权重,最后将互补特征与通道权重相乘,并将结果与原始特征相加,作为模态补充信息。这样,特征编码器就能借助 CMDAF 模块提取并预整合不同模态的互补特征。
- 中途融合策略与图像重建:采用中途融合策略,即通过在通道维度上拼接红外和可见光图像的特征(F_{ir})和(F_{vi}) ,得到融合特征(F_{f})。最后,利用图像重建器(R_{I})将融合特征(F_{f})转换为最终的融合图像(I_{f})。
特征提取与重建
-
特征提取器
:包含 5 个卷积层,目的是充分提取红外和可见光图像的互补及共同特征。
- 第一个卷积层为 1×1 卷积层,其设计目的是减小红外和可见光图像之间的模态差异。训练时对红外和可见光图像分别进行,有助于后续更好地提取特征。
- 后续 4 个卷积层共享权重,用于进一步提取红外和可见光图像的深层特征。值得注意的是,第 2、3、4 层的输出后都连接了跨模态差异感知融合(CMDAF)模块。该模块能够在特征提取阶段以渐进的方式整合模态互补特征,使得特征提取器可以更全面地从红外和可见光图像中提取共同和互补特征。
- 所有卷积层(除第一层外)的卷积核大小均为 3,激活函数都采用 Leaky Relu。这样的设置有助于在提取特征的过程中引入非线性,增强网络的表达能力,同时缓解梯度消失问题。
-
图像重建器
:同样包含 5 个卷积层,负责将提取到的共同和互补信息进行充分整合,并生成最终的融合图像。
- 除最后一层卷积层的卷积核大小为 1×1 外,其余层均为 3×3。在图像重建过程中,逐渐减少特征图的通道数,以适应生成融合图像的需求。
- 除最后一层的激活函数为 Tanh 外,其余卷积层均采用 Leaky Relu 作为激活函数。Tanh 函数将输出值映射到 [-1, 1] 区间,有助于调整融合图像的像素值分布;而 Leaky Relu 函数则能在保持非线性的同时,避免神经元在负半轴完全失活。
光照感知子网架构
由四个卷积层组成,这些卷积层的主要作用是对输入的可见光图像进行特征提取和信息处理。其中,第一个卷积层的卷积核大小为 4×4,步长设置为 2。
CMDAF
表示为公共部分+互补部分
其中⊕表示元素求和,⊙表示通道乘法,𝛿(⋅)和𝐺(⋅)分别表示sigmoid函数和Global Average Pooling。 Eq.(5)表示全局平均池化将互补特征压缩成一个向量。 然后,通过sigmoid函数将向量归一化为[0,1],生成通道权重。 最后,将互补特征与信道权值相乘,将结果作为模态补充信息添加到原始特征中。 因此,我们的特征编码器可以利用CMDAF模块提取和预集成不同模态的互补特征。
损失函数
为了使我们的渐进式融合框架能够根据光照条件自适应地整合有意义的信息,我们创新地提出了光照感知损失。
L为红外和可见光图像的强度损失。 𝑊 ̄𝑟和𝑊𝑣 ̄是光照感知权值
光照损失驱动渐进式融合网络根据光照条件动态保持源图像的亮度信息,但融合后的图像不能保持最优的亮度分布。 为此,我们进一步引入辅助强度损失,表示为:
此外,我们期望融合后的图像在保持最佳强度分布的同时,还能保留丰富的纹理细节。 通过大量的实验,我们发现融合图像的最优纹理可以表示为红外和可见光图像纹理的最大集合。 因此,引入纹理损失来强制融合图像包含更多的纹理信息,定义如下:
融合性能在很大程度上依赖于光照感知子网络的精度。 光照感知网络本质上是一个分类器,它计算图像属于白天和夜间的概率。
实验结果
数据集
MFNet数据集[5]的基础上,构建了一个新的红外与可见光多光谱融合数据集。 MFNet数据集包含1569对图像(820对白天拍摄,749对夜间拍摄),空间分辨率为480 × 640。