Image Super-Resolution with Text Prompt Diffusion

本文介绍了一种将文本提示引入图像超分辨率(ImageSR)的方法,PromptSR利用扩散模型和预训练的语言模型如T5和CLIP,通过文本退化表示构建数据集,但实验显示在某些情况下效果有限。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Image Super-Resolution with Text Prompt Diffusion (Paper reading)

Zheng Chen, Shanghai Jiao Tong University, arXiv23, Code, Paper

1. 前言

受多模态方法和文本提示图像处理进步的启发,我们将文本提示引入图像SR,以提供退化先验。具体来说,我们首先设计了一个文本图像生成管道,通过文本退化表示和退化模型将文本集成到SR数据集中。文本表示采用基于装箱方法的离散化方式来抽象描述退化。这种表示方法还可以保持语言的灵活性。同时,我们提出了PromptSR来实现文本提示SR。PromptSR采用了扩散模型和预先训练的语言模型(例如T5和CLIP)。我们在生成的文本图像数据集上训练模型。

2. 整体思想

在这里插入图片描述

快速一篇文章!没什么insight。如上图,这篇文章就是SR3+prompt或者说完全等于Stable Diffuison。数据集就是下面这么构建的:

在这里插入图片描述

好像没有别的要说的了。。。。不如看看这两篇文章1)AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion;2)CONTROLLING VISION-LANGUAGE MODELS FOR MULTI-TASK IMAGE RESTORATION

3. 实验

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


·消融实验,图4在给出[轻微噪声]这个prompt时,不能有效去除噪声,给出错误的[unchange]这个prompt时,会引入伪影。还做了不同文本编码器的影响,我觉得没必要吧。因为你这个text prompt换成1,2,3,4没准也work?

在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值