论文阅读：Diffusion Model-Based Image Editing: A Survey

huzimu_

已于 2024-03-27 21:32:26 修改

阅读量2.8k

点赞数 24

CC 4.0 BY-SA版权

分类专栏： # Stable Diffusion AIGC系列文章标签：论文阅读 AIGC stable diffusion image editing 图片编辑综述

于 2024-03-09 11:58:34 首次发布

本文链接：https://blog.csdn.net/huzimu_/article/details/136547375

Diffusion Model-Based Image Editing: A Survey

论文链接
 GitHub仓库

摘要

这篇文章是一篇基于扩散模型（Diffusion Model）的图片编辑（image editing）方法综述。作者从多个方面对当前的方法进行分类和分析，包括学习策略、用户输入、和适用的任务等。为了进一步评估文本引导的图片编辑算法，作者提出了一个新的基准，EditEval，采用了一个创新的指标：LMM Score。最后，作者分析了当前方法的局限和未来可能的研究方向。

介绍

首先，什么是图片编辑？图片编辑是对输入的图片进行外观上、结构上或者内容上进行轻微乃至重大的修改的一类方法。
其次，什么是扩散模型？受平衡热力学启发，扩散模型逐渐向数据中添加噪声，然后学习从随机噪声开始反转这个过程，直至生成的数据符合源数据的分布。
扩散模型被广泛地应用于各个领域，包括图片生成、视频生成、图片修复和图片编辑。这篇文章对基于扩散模型的图片编辑方法做了综合的分析和总结。根据这些方法的学习策略、输入条件和一些列的编辑任务对它们进行分类。
从学习策略角度，分为三个主要的类别：基于训练和的方法training-based approaches，测试-时间微调方法testing-time fine-tuning approaches，和无需训练微调方法training and finetuning free approaches。
从输入条件角度，分为10个不同的类别，包括文本text，掩码 mask，参考图片reference (Ref.) image，类class，布局layout，姿态pose，草图 sketch，分割图segmentation (Seg.) map，音频 audio，和拖拽点dragging points。
从图片编辑任务方面，可以分为3个大类：语义编辑semantic editing，风格编辑stylistic editing，和结构编辑structural editing，覆盖了12个特定类别。

相关工作

Conditional Image Generation

不同于图片编辑，其修改现有的一张图片的部分，条件图片生成在特定条件的指引下，从头生成新的图片。早期的工作主要是class-conditioned image generation（条件为“类”的图片生成），后来的一些工作借助classifier-free guidance，可以支持更多的条件，比如文本条件。
Text-to-Image (T2I) Generation.
GLIDE是第一个条件图片生成扩散模型。类似的Imagen使用了级联框架在像素空间生成高分辨率图片。后续的工作LDM将像素空间替换为低维潜在空间，大大降低了计算开销，以此为基础的

最低0.47元/天解锁文章