【图像超分入门】第五章：Transformer新范式《从SwinIR到扩散模型》

最新推荐文章于 2025-05-03 08:20:44 发布

Seraphina_Lily

最新推荐文章于 2025-05-03 08:20:44 发布

阅读量919

点赞数 23

CC 4.0 BY-SA版权

分类专栏：图像超分文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/2403_83044722/article/details/146991925

图像超分专栏收录该内容

8 篇文章

订阅专栏

引言：从CNN到Transformer的范式转移

随着Vision Transformer的出现，超分辨率领域正在经历一场深刻变革。传统CNN模型的局部感受野限制和静态权重分配问题，促使研究者探索更强大的建模方式。本文将深入解析两种前沿方向：基于窗口注意力的SwinIR和扩散模型驱动的Diffusion超分，揭示它们如何突破当前技术瓶颈。

一、SwinIR：窗口注意力的精妙设计

1.1 局部与全局的黄金平衡

SwinIR的核心创新在于层级滑动窗口注意力：

局部窗口：将图像划分为不重叠的M×M窗口（通常M=8）
跨窗口连接：通过层间的窗口位移实现全局交互
计算优势：复杂度从O(H²W²)降至O(HWM²)

graph TB
    A[输入图像] --> B[划分8x8窗口]
    B --> C[窗口内自注意力]
    C --> D[下一层窗口偏移4像素]
    D --> E[新的注意力关系]

与ViT的对比：

特性	ViT	SwinIR
注意力范围	全局	局部窗口+层次传播
位置编码	绝对位置	相对位置偏置
适合图像大小	固定分辨率	任意分辨率

1.2 轻量化改造实践

针对移动端部署的SwinIR-light改进：

深度可分离卷积替换部分注意力层
通道收缩：从180维降至128维
知识蒸馏：用完整SwinIR作为教师模型

实测结果（X4超分）：

参数量减少63%（从11.7M到4.3M）
速度提升2.1倍（RTX 3090）
PSNR仅下降0.15dB

二、扩散模型：细节重建的新王者

2.1 扩散过程即超分过程

扩散模型通过渐进去噪实现超分的核心思想：

前向过程：逐步破坏HR图像为噪声
反向过程：从LR条件出发预测噪声
迭代细化：通常需要50-100步采样

数学表达：

其中y为LR图像，x_t为中间噪声图像。

2.2 关键加速技术

2.2.1 DDIM采样

将1000步压缩到50步
保持确定性输出（无随机噪声）

# DDIM采样伪代码
def ddim_sample(model, lr, steps=50):
    x = torch.randn_like(lr)
    for t in reversed(range(steps)):
        pred_noise = model(x, lr, t)
        x = x - pred_noise * (1/t.sqrt())
    return x