可控生成之ControlNet原理

funNLPer

已于 2023-09-09 10:40:36 修改

阅读量923

点赞数

CC 4.0 BY-SA版权

分类专栏： AI算法文章标签： AIGC

于 2023-08-31 23:57:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/orangerfun/article/details/132591104

AI算法专栏收录该内容

26 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

ControlNet是一种旨在通过附加条件控制大型图像生成模型的技术，以解决特定任务数据不足和精确控制难题。它通过在扩散模型中添加一个可训练副本，根据条件输入（如边缘、轮廓图等）进行控制，从而实现对生成图像的精确姿态和细节调整，且不影响原始模型性能。在Stable Diffusion模型中，ControlNet仅训练Unet编码器，降低了计算成本，并通过不同训练策略适应小规模和大规模训练场景。实验结果显示，ControlNet在各种控制条件下都能产生令人满意的生成效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Adding Conditional Control to Text-to-Image Diffusion Models
代码：lllyasviel/ControlNet
🤗关注公众号funNLPer白嫖有用的知识🤗

简单来说ControlNet希望通过输入额外条件来控制大型图像生成模型，使得图像生成模型根据可控。

文章目录

1. 动机
2. ControlNet原理
3. ControlNet inStable Diffusion Model
- 3.1 网络结构
- 3.2 训练过程
4. 生成效果
5. 参考

1. 动机

当前文生图任务中会出现如下问题：

特定任务中往往无法获取大规模的训练数据
对于大部分人来说，并没有大规模计算集群资源
各种图像生成任务中会有多种问题定义、用户控制条件、图像标注的形式

从而造成当前基于prompt控制的模型并不能满足特定业务需求。ControlNet的提出就是为了解决上面几个问题。

此外，我们在使用Stable Diffusion通过prompt生成图片时，很多时候我们希望能够生成一些固定姿态的物体，如下图所示，可能我们就想生成一只和最左边参考图像中鹿的姿态一摸一样的鹿，很显然如果直接通过prompt很难控制，这里主要有两个难点：

如何非常准确详细的描述左边鹿的姿态

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。