Wavelet-based Fourier Information Interaction with Frequency Diffusion Adjustment for Underwater Image Restoration
摘要
水下图像受到复杂多样的退化,不可避免地影响水下视觉任务的有效性。然而,大多数方法主要是在图像的原始像素空间中运行,这限制了对水下图像频率特性的探索,导致深度模型在产生高质量图像时没有充分利用其表征能力。在本文中,我们介绍了一种新的水下图像增强(UIE)框架,命名为WF-Diff,旨在充分利用频域信息和扩散模型的特性。WF-Diff由两个可分离的网络组成:基于小波的傅里叶信息交互网络(WFI2-net)和频率残差扩散调整模块(FR-DAM)。通过对频域信息的充分探索,WFI2-net旨在初步实现小波空间中频率信息的增强。我们提出的FRDAM可以进一步细化初始增强图像的高频和低频信息,可以将其视为一个即插即用的通用模块,用于调整水下图像的细节。通过上述技术,我们的算法可以在真实的水下图像数据集上显示SOTA性能,并在视觉质量上达到具有竞争力的性能。代码可https://github.com/zhihefang/WF-Diff上获得。
介绍
水下图像修复是水下视觉领域中的一项实际而具有挑战性的技术,广泛应用于水下机器人[26]和水下物体追踪[6]等任务。由于水下场景中的光线折射、吸收和散射,水下图像通常受到严重的失真,表现为低对比度和模糊[2]。因此,清晰的水下图像在需要与水下环境互动的领域中起着至关重要的作用。水下图像增强(UIE)的主要目标是通过去除散射和校正退化图像中的颜色失真,从而获得高质量的图像。UIE对于与视觉相关的水下任务至关重要。
为了应对这一问题,基于水下图像物理特性的传统UIE方法被提出[15, 17, 29–31]。这些方法研究了由颜色偏差或散射引起的退化的物理机制,并通过补偿这些因素来增强水下图像。然而,这些基于物理学的模型由于表征能力有限,无法处理水下场景中所有复杂的物理和光学因素,从而导致在高度复杂和多样的水下场景中增强效果较差。近年来,一些基于学习的方法[7, 18, 28, 36]因其神经网络强大的特征表示和非线性映射能力,能够产生更好的结果。这些方法可以通过大量的配对训练数据学习图像从退化到清晰的映射。然而,大多数之前的方法都是基于图像的原始像素空间,未能充分探索水下图像在频率空间中的特性,这导致无法有效地利用深度模型的表示能力来生成高质量的图像。
【图1. 我们的动机。幅度和相位是通过快速傅里叶变换(FFT)得到的,重新组合的图像是通过逆傅里叶变换(IFFT)获得的。我们进一步探索了水下图像在小波空间中的频率特性。】
基于之前傅里叶方法的启示[12, 48],我们探索了傅里叶频率信息在UIE任务中的特性,如图1所示。给定两张图像(一个水下图像及其对应的地面真值图像),我们交换它们的幅度分量,并将其与对应的相位分量在傅里叶空间中结合。重新组合的结果表明,视觉效果随着幅度交换而发生变化,这表明水下图像的退化信息主要包含在幅度分量中。我们进一步探索了幅度分量在小波空间中的特性。具体来说,图像可以通过离散小波变换(DWT)分解为低频子图像和高频子图像,然后我们交换低频子图像的幅度分量。从视觉结果来看,我们发现了类似的现象,这意味着颜色退化信息主要包含在低频子图像中,而纹理和细节退化信息主要包含在高频子图像中。表1展示了不同频域策略的定量评估,证明了我们的发现是客观的。因此,如何充分利用频域信息的特性,并将其有效地融入到一个统一的图像增强网络中,是一个关键问题。
近年来,基于扩散的方法[10, 35]因其在图像合成[23, 24, 32, 34, 52]和修复任务[5, 40, 46, 51]中的优异表现而受到广泛关注。这些方法依赖于分层去噪自编码器架构,使得它们能够迭代地逆转扩散过程,从随机采样的高斯噪声生成目标图像或潜在分布,并实现高质量的映射[10]