Deep Decoder: Concise Image Representations from Untrained Non-convolutional Networks
1. 论文的研究目标与实际意义
研究目标:
论文旨在提出一种名为 Deep Decoder(深度解码器) 的非卷积神经网络模型,解决传统深度神经网络在图像处理中的两大痛点:
- 依赖大规模训练数据:传统方法需预训练模型(如卷积自编码器、GAN)。
- 过参数化(Over-parameterization):网络参数数量远超输出维度,易过拟合噪声。
Deep Decoder 的核心创新在于:
- 无训练(Untrained):直接优化网络权重拟合单张图像,无需预训练。
- 欠参数化(Under-parameterized):参数数量远小于输出维度(如 N ≪ n N \ll n N≪n, n n n 为图像像素数)。
- 非卷积结构:仅通过上采样、通道线性组合、ReLU 和通道归一化构建。
实际问题与产业意义:
- 图像压缩:将图像压缩为少量网络权重(如 25,536 参数表示 512×512 RGB 图像)。
- 逆问题求解:去噪、超分辨率、图像修复等任务中实现高性能。
- 产业价值:
- 降低计算资源需求:适用于边缘设备(如手机、IoT 设备)。
- 保护数据隐私:无需共享训练数据,直接处理单张图像。
2. 创新方法:Deep Decoder 模型
2.1 核心架构设计
Deep Decoder 是一种非卷积神经网络,其核心目标是通过欠参数化(under-parameterization)和无训练优化实现图像的高效表示。网络输入为一个固定随机张量 B 0 ∈ R n 0 × k 0 B_0 \in \mathbb{R}^{n_0 \times k_0} B0∈Rn0×k0(如 n 0 = 16 × 16 , k 0 = 64 n_0 = 16 \times 16, k_0 = 64 n0=16×16,k0=64),输出为图像 x ∈ R n d × k out x \in \mathbb{R}^{n_d \times k_{\text{out}}} x∈Rnd×kout(如 n d = 512 × 512 , k out = 3 n_d = 512 \times 512, k_{\text{out}} = 3 nd=512×512,kout=3)。网络由 d d d 层组成,每层操作定义为:
B i + 1 = cn ( relu ( U i B i C i ) ) , i = 0 , … , d − 1 B_{i+1} = \text{cn}\left(\text{relu}\left(U_i B_i C_i\right)\right), \quad i=0,\ldots,d-1 Bi+1=cn(relu(UiBiCi)),i=0,…,d−1
最终输出层为:
x = sigmoid ( B d C d ) x = \text{sigmoid}(B_d C_d) x=sigmoid(BdCd)
关键组件解析:
- 上采样(Upsampling, U i U_i Ui):
- 唯一引入空间耦合的操作,采用双线性插值(如从 16 × 16 16\times16 16×16 上采样至 32 × 32 32\times32 32×32)。
- 替代卷积层的局部关联性,间接编码分段平滑先验