Stable Diffusion条件控制生成---相关论文集合

本文概述了StableDiffusion中的几种关键技术,包括IP-Adapter用于图片提示输入,ControlNet实现高效条件适应,InstantID确保人脸ID一致性,以及T2I-Adapter和Uni-ControlNet的多条件融合。Composer提出组件级条件控制,MGPF通过训练自由的掩码指导生成,SalientObject-Aware着重于显著物体背景生成。这些技术展示了如何改进文本引导的生成模型以适应更复杂的任务需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. IP-Adapter

论文地址
解决问题:
如何将图片作为prompt输入网络,并无需更改开源模型参数
解决思路:
新增一个cross-attention layers,结果与text prompt的cross-attention layers结果相加后输入网络,只需要训练Wk, Wv两个参数
在这里插入图片描述
在这里插入图片描述

2. ControlNet

论文地址
解决问题:
如何快速高效的利用开源模型接受特定条件输入,适配特殊任务
解决思路:
新增网络:复制原UNet网络的encode和middle部分共13个网络blocks,将特定条件通过一个4层卷积构成的encode输入到那13网络中,13网络与原UNet通过zero-conv进行feature融合,训练时仅更新新增网络,原模型参数冻结,具体如下图所示:
在这里插入图片描述
Tips:
1. 训练时随机去掉text,换成空字符输入,以增强网络多特殊条件的理解,并在应用时支持输出text为空的情形。研究者随机将 50% 的文本 prompts
替换为空字符串,这有利于 ControlNet 从输入条件(例如Canny边缘图或人类涂鸦等)中识别语义内容的能力。因为当prompt对于SD模型不可见时,编码器倾向于从条件输入中学习更多语义,以替代prompt。
在这里插入图片描述
2. 当训练机器资源有限时,可以去掉网络decode的zero-conv连接,只保留中间层连接,可加速模型收敛,提高训练速度。最后再将去掉的zero-conv连接接上进行finetune即可
在这里插入图片描述
3. 如果zero convolution模块的初始权重为零,那么梯度也为零,ControlNet模型将不会学到任何东西。那么为什么“zero convolution模块”有效呢?
在这里插入图片描述

3. InstantID

论文地址
解决问题:
如何解决换脸过程中人脸ID得保持性,并与背景较好的融合
解决思路:
融合IP-A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值