Unsupervised Domain-Specific Deblurring via Disentangled Representations
1. 论文的研究目标与实际问题意义
1.1 研究目标
论文旨在解决领域特定的单图像去模糊问题(Domain-Specific Single Image Deblurring),特别是针对人脸和文本图像。其核心挑战是在无配对数据(Unpaired Data)的条件下,从模糊图像中恢复出清晰内容,同时避免传统方法对模糊核估计的依赖和生成对抗网络(GAN)对无关特征(如颜色、纹理)的过度编码。
1.2 实际问题与产业意义
图像模糊是影响计算机视觉任务(如人脸识别、OCR)性能的重要因素。传统方法依赖模糊核估计,但存在以下问题:
- 泛化能力差:通用方法难以适配特定领域(如人脸、文本);
- 配对数据需求:监督学习需大量配对数据,成本高昂;
- 真实场景适应性不足:合成模糊与真实模糊分布差异大。
该方法的无监督特性降低了数据成本,且在特定领域(如安防人脸修复、文档数字化)具有直接应用价值,能提升下游任务的准确性和效率。
2. 论文提出的新方法、模型与公式详解
2.1 总体框架与核心设计
论文提出了一种基于解缠表示(Disentangled Representations)的无监督领域特定图像去模糊方法,其核心是通过分离模糊图像中的内容特征(Content Features)和模糊特征(Blur Features)来控制生成过程。模型架构如图2所示,包含以下四个模块:
- 内容编码器( E B c E_B^c EBc, E S c E_S^c ESc):分别从模糊图像域( B B B)和清晰图像域( S S S)提取内容特征。
- 模糊编码器( E b E^b Eb):从模糊图像中提取模糊特征。
- 生成器( G B G_B GB, G S G_S GS):分别生成模糊图像和去模糊图像。
- 判别器( D B D_B DB, D S D_S DS):分别在模糊域和清晰域对抗生成图像的真实性。
图2 模型架构示意图
- 蓝色箭头:模糊分支(生成模糊图像 b s b_s bs);
- 橙色箭头:去模糊分支(生成清晰图像 s b s_b sb)。
关键设计:
- 共享权重内容编码器: E B c E_B^c EBc与 E S c E_S^c ESc的最后一层共享权重,强制两者将不同域的内容特征映射到同一空间。
- 模糊特征正则化:通过KL散度损失约束模糊特征 z b z_b zb服从标准正态分布,抑制内容信息混入。
2.2 解缠表示的实现
2.2.1 内容与模糊特征的分离
- 内容特征提取:
清晰图像仅包含内容信息而无模糊,因此 E S c E_S^c ESc直接作为内容特征的理想提取器。模糊图像的内容提取器 E B c E_B^c EBc通过共享权重与 E S c E_S^c ESc对齐,保证两者内容特征的一致性。 - 模糊特征提取:
模糊编码器 E b E^b Eb需仅编码模糊信息。论文提出两种约束:- 结构约束:将 E b ( b ) E^b(b) Eb(b)与 E S c ( s ) E_S^c(s) ESc(s)输入 G B G_B GB生成模糊图像 b s b_s bs。由于 b s b_s bs是对 s s