目录
Preliminary: Stable Diffusion.
**IRControlNet-**条件编码 (Condition Encoding)
**IRControlNet-**条件网络 (Condition Network)
**IRControlNet-**特征调制 (Feature Modulation)
Abstract
我们提出了DiffBIR,一个通用的恢复管道,可以处理不同的盲图像恢复任务,采用统一框架。DiffBIR将盲图像恢复问题分解为两个阶段:1)降级去除:去除与图像无关的内容;2)信息再生:生成缺失的图像内容。每个阶段都独立开发,但它们以级联的方式无缝协作。在第一阶段,我们使用恢复模块去除退化,获得高保真的恢复结果。在第二阶段,我们提出了IRControlNet,它利用潜在扩散模型的生成能力来生成真实的细节。具体而言,IRControlNet基于特别生成的条件图像进行训练,这些图像没有干扰性的噪声内容,从而实现稳定的生成性能。此外,我们设计了一种区域自适应恢复指导,可以在推理过程中修改去噪过程,而无需重新训练模型,允许用户通过可调的指导尺度来平衡真实感和保真度。大量实验表明,DiffBIR在盲图像超分辨率、盲人脸恢复和盲图像去噪任务上,相较于现有的最先进方法表现出明显的优越性,适用于合成和真实世界数据集。
Contribution
1. DiffBIR的设计
- 解耦BIR问题:DiffBIR将盲图像恢复(BIR)问题分为两个阶段:
- 恢复模块:负责去除图像中的退化成分。
- 生成模块:负责再生丢失的图像信息。
- 统一框架:这种两阶段的设计使DiffBIR能够在一个统一的框架内,首次在盲图像超分辨率(BSR)、盲面部恢复(BFR)和盲图像去噪(BID)任务中达到了最先进的性能。
2. IRControlNet的提出
- 利用扩散先验:论文提出了IRControlNet,它借助文本到图像的扩散先验来实现真实的图像重建。
- IRControlNet用于控制生成扩散先验,具体做法是使用预训练的变分自编码器(VAE)进行条件编码,并借鉴ControlNet的结构,通过附加和复制的编码器实现高效控制。
3. 可控模块的引入
- 无训练的可控模块:引入了一种区域自适应恢复指导模块,通过区域自适应恢复指导,利用设计的区域自适应MSE损失,在每个采样步骤中将生成结果与高保真指导图像进行比较,实现保真度与质量之间的权衡。低频区域更受高保真指导图像的影响,而高频区域则保持更多的生成能力。
- 用户偏好的灵活性:这种设计使得用户可以根据个人需求,在生成的图像质量和真实感之间找到平衡,提供了更高的控制能力。
总结
这段文字强调了DiffBIR在盲图像恢复领域的重要创新,尤其是在框架设计、生成模块的有效性和用户控制能力等方面的突出贡献。
Method
Restoration Module
- 去除降质:RM的主要目标是去除低质量(LQ)图像中的干扰性降质,恢复出高质量(HQ)图像,而不生成任何新的内容。
- 条件图像生成:RM不仅负责恢复图像,还生成适合用于训练生成模块的条件图像。这一过程确保生成模块可以在训练时获得可靠的输入。
采用均方误差(MSE)损失:RM模块使用经典的降质模型进行训练,目标是最小化恢复图像与高质量图像之间的MSE损失。具体的损失函数为:
Generation Module
Preliminary: Stable Diffusion.
基于SD,Stable Diffusion 是一种潜在扩散模型,包含一个自动编码器(Autoencoder)。该自动编码器由编码器E和解码器D组成,主要功能是将图像x转换为潜在表示z,并能够将其重建回原始图像。
优化目标:潜在扩散模型的优化过程定义为:
x 和 c 从数据集中采样,z=E(x),t 是均匀采样的时间步,ϵ 是从标准高斯分布采样的噪声。
**IRControlNet-**条件编码 (Condition Encoding)
-
VAE编码器:在IRControlNet中,我们使用预训练的变分自编码器(VAE)编码器 E 来将可靠的条件图像 IRM 编码到潜在空间中。公式为:
- 输出:cRM 是获得的条件