最强开源模型来了!一文详解 Stable Diffusion 3 Medium 特点及用法

img

备受期待的 Stable Diffusion 3(以下简称 “SD3”)终于向公众开放了,作为 Stability AI 迄今为止最先进的文本到图像开源模型,SD3 在图像质量、文本内容生成、复杂提示理解和资源效率方面有了显著提升,今天就为大家详细介绍一下 SD3 的特点以及如何在 ComfyUI 中使用它。

一、SD3 简介

此次开放的模型准确来说是 Stable Diffusion 3 Medium,包含 20 亿参数,具有体积小、适合在消费级 PC 和笔记本电脑上运行的优点,所以普通人也可以将其部署到自己的电脑上使用。SD3 Medium 的优点包括:

① 图像质量整体提升,能生成照片般细节逼真、色彩鲜艳、光照自然的图像;能灵活适应多种风格,无需微调,仅通过提示词就能生成动漫、厚涂等风格化图像;具有 16 通道的 VAE,可以更好地表现手部以及面部细节。

img

② 能够理解复杂的自然语言提示,如空间推理、构图元素、姿势动作、风格描述等。对于「第一瓶是蓝色的,标签是“1.5”,第二瓶是红色的,标签是“SDXL”,第三瓶是绿色的,标签是“SD3”」这样复杂的内容,SD3 依旧能准确生成,而且文本效果比 Midjourney 还要准确。

img

③ 通过 Diffusion Transformer 架构,SD3 Medium 在英文文本拼写、字距等方面更加正确合理。Stability AI 在发布 SD3 官方公告时,头图就是直接用 SD3 生成的,效果非常惊艳。

img

另外此次 SD3 Medium 模型的授权范围是开放的非商业许可证,也就是说没有官方许可的情况下,模型不得用于商业用途,这点是需要大家注意的。

二、在 ComfyUI 中使用

SD 3 Medium 模权重已经在 huggingface 上放出了, 我们可以在 ComfyUI 部署工作流来使用它,具体操作如下:

① 将 ComfyUI 更新到最新版本,以支持 SD3 的顺利运作。

② 下载模型权重: https://huggingface.co/stabilityai/stable-diffusion-3-medium (下载时需要先填写一份表格,保证自己不会将模型用于商用用途;可以直接在文末的百度云盘内下载)。官方提供了 4 种大模型文件:

  1. sd3_medium:4.3G,独立主模型,不包含文本编码器(clip 模型);
  2. sd3_medium_incl_clips.safetensors:5.97G,包含 clip_g 和 clip_l 编码器;
  3. sd3_medium_incl_clips_t5xxlfp8.safetensors:10.9G,包含 clip_g、clip_l 和 t5xxl_fp8 编码器;
  4. sd3_medium_incl_clips_t5xxlfp16.safetensors:15.8G,包含 clip_g、clip_l 和 t5xxl_fp16 编码器。

img

③ 另外还有 4 个 Clip 文件和 3 种工作流。大模型的安装位置为根目录的 comfyui/models/checkpoints 文件夹,Clip 模型的安装位置为 comfyui/models/clip 文件夹。实际应用中不需要每一个模型都下载,后面会为大家介绍目前使用较多的 2 种工作流,可以看完之后再确定下载哪些文件。

img

SD3 工作流 ①

这个使用的是官方提供的 basic 基础 工作流,可以在 comfyui_example_workflow 文件加中下载使用 。这个工作流需要用的模型文件有 4 种:sd3_medium、clip_g、clip_l 和 t5xxl_fp8。这是最完整稳健的一种工作流。

img

SD3 工作流 ②

这个工作流可以在云盘内下载,它只使用了一个模型文件 sd3_medium_incl_clips_t5xxlfp8.safetensors。这个模型已经融合了 3 种 clip 模型,所以不再需要 clip loader 这个节点,用起来更简单。

img

使用 SD3 时,还有 2 个小技巧可以帮我们提升出图质量:

① 是在生成写实照片以及人物面部的,可以将 cfg 参数参数调低至 2-3 之间,细节和质量会更好;包含文本时,还是使用 cfg 4.5 或者 5 时效果会更好。大家也可以多探索一些其他 cfg 参数能产生的效果。

② SD3 模型更适合自然语言提示词,而不是标签式的提示词,你可以详细描述你需要的画面内容、构图、色彩、氛围,即使提示词很长,SD3模型也能处理的很好。

img

三、SD3 存在的不足

虽然 SD3 在图像质量、细节、对提示词的理解、文本内容生成能力上有了明显提升,但是也存在一些不足,比如在生成手部的时候依旧会出现错误,以及在生成 “lying(躺)” 这个姿势时,人物会出现严重的崩坏。有人推测是因为 SD3 对内容安全有严格审查,导致相关内容受到影响。

img

不过总体上来说 SD3 在图像生成质量以及整体性能上都比之前的 SD1.5、SDXL 提升很多。虽然有 Midjourney V6 以及 sdxl 微调模型珠玉在前,让 SD3 显得没有那么惊艳,但是作为一个免费的模型能达到这样的效果已经非常惊人了。

之前 SD1.5、SDXL 模型的直出图像质量一直也不太行,但是在开源社区的努力下,各种衍生模型的质量一直都非常不错,甚至超过了一些闭源模型。所以我们可以期待一下 SD3 未来的生态发展,等各种微调模型以及 Controlnet、IP-Adapter 这些的配套模型都跟上之后,SD3 肯定还能给我们带来新的惊喜。

img
以上就是本期为大家介绍的最新开源文生图模型 SD3 的相关内容。模型资源以及工作流文件都在文末的百度网盘内容,有需要小伙伴记得下载。

ComfyUI 的学习门槛比较高,如果你想掌握它,建议先从 Stable Diffusion WebUI 开始,它更适合初学入门,学会后也能有助于我们快速掌握 ComfyUI 的用法。

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

👉[[CSDN大礼包:《StableDiffusion安装包&AI绘画入门学习资料》免费分享]]安全链接,放心点击

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!

零基础AI绘画学习资源介绍

👉stable diffusion新手0基础入门PDF👈

(全套教程文末领取哈)
在这里插入图片描述

👉AI绘画必备工具👈

在这里插入图片描述

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉大厂AIGC实战案例👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉12000+AI关键词大合集👈

在这里插入图片描述
这份完整版的学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

### Stable Diffusion 模型的工作原理详解 #### 1. 基本概念 Stable Diffusion 是一种基于潜在扩散模型 (Latent Diffusion Model, LDM) 的图像生成技术,其核心目标是在保持图像语义结构的同时生成高质量、高分辨率的图像[^1]。该模型通过引入噪声逐步破坏输入数据,并利用训练好的神经网络逆向恢复原始图像。 #### 2. 主要组成部分 Stable Diffusion 的架构主要由以下几个部分组成: - **潜空间表示** Stable Diffusion 使用自动编码器将高维像素空间映射到低维潜空间,在这个过程中减少计算复杂度并提高效率[^1]。 - **CLIP 文本编码器** CLIP 被用来将自然语言描述转化为嵌入向量,这些向量随后被用于指导图像生成过程中的条件约束[^1]。 - **U-Net 扩散模型** U-Net 结构负责执行实际的去噪任务。它接收带有噪声的潜变量以及时间步长作为输入,并预测对应的噪声成分以便于后续去除[^3]。 #### 3. 工作流程 以下是 Stable Diffusion 的典型工作流概述: - **前向传播阶段(加噪)** 在这一阶段,算法会逐渐向初始干净图片加入随机高斯白噪音直到完全淹没原信号为止。每一步都会记录当前状态下的参数变化情况以供反向重建时参考。 - **后向推理阶段(去噪)** 利用预训练完成后的 U-Net 对象估计给定时刻 t 下应该移除多少比例的干扰项 εθ(x_t,t),从而一步步还原接近真实的样本 x_0 。整个迭代周期通常设定为 T 步骤长度固定不变的形式来进行控制精度与速度之间的平衡取舍。 - **交叉注意机制** Cross Attention 层允许模型关注全局特征而非局部区域特性单独处理,这有助于增强最终产物的一致性和连贯程度。具体而言就是让 encoder hidden states 和 decoder query keys/values 进行交互作用来捕捉更广泛范围内的关联信息[^3]。 #### 4. 关键优势 相比其他类型的生成对抗网络或者变分自编码方案来说,采用扩散策略构建而成的 SD 方法具备如下几个显著优点: - 更易于优化因为不需要显式定义复杂的先验分布形式; - 可扩展性强支持多种模态转换场景应用比如文字转图画等等; - 输出质量稳定即使面对较为稀疏的数据集也能够维持良好表现水平; ```python import torch from diffusers import StableDiffusionPipeline model_id = "runwayml/stable-diffusion-v1-5" pipe = StableDiffusionPipeline.from_pretrained(model_id) prompt = "A beautiful landscape with mountains and a lake" image = pipe(prompt).images[0] image.save("landscape.png") ``` 以上代码片段展示了如何加载预先训练完毕的标准版本管道实例并通过简单的提示词快速渲染一张风景画效果图出来。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值