Stable Diffusion超详细解释
https://zhuanlan.zhihu.com/p/632809634
文本-->clip text encoder -->text Embeddings特征矩阵
完成对文本信息的编码后,就会输入到SD模型的“图像优化模块”中对图像的优化进行“控制”。
如果是图生图任务,我们在输入文本信息的同时,还需要将原图片通过图像编码器(VAE Encoder)生成Latent Feature(隐空间特征)作为输入。
如果是文生图任务,我们只需要输入文本信息,再用random函数生成一个高斯噪声矩阵作为Latent Feature的“替代”输入到SD模型的“图像优化模块”中.
Stable Diffusion整体的训练逻辑:
- 从数据集中随机选择一个训练样本
- 从K个噪声量级随机抽样一个timestep 𝑡
- 将timestep 𝑡对应的高斯噪声添加到图片中
- 将加噪图片输入U-Net中预测噪声
- 计算真实噪声和预测噪声的L2损失
- 计算梯度并更新SD模型参数
clip
vae
unet