可能是最强文生图工具:Stable Diffusion 3 超详细测试

本文对比了StableDiffusion3和MidjourneyV6在不同场景下的表现,强调了StableDiffusion3在理解提示词、英文处理和品牌图标呈现方面的优势,但人体细节和审美上稍逊于Midjourney。作者认为StableDiffusion3有巨大潜力,尤其是在本地部署和开放原则的支持下。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文末扫🐎免费获取资源

最近文生图领域最重要的消息,就是Stable Diffusion 3的推出。

目前,有两种使用Stable Diffusion 3的方法,一种是通过API调用,这需要在Stability AI开发者平台申请API Keys:

Stability AI开发者平台

在Google Colab上调用API进行绘图

另一种方法,是使用Stable Assistant聊天机器人(需申请),类似在ChatGPT里使用DALLE3:

通过Stable Assistant使用SD3

总之,目前两种方式都需要付费,10美元1000点数,只能画不到200张图,并不便宜。

那到底效果如何,今天就和Midjourney(V6)作一番详细对比:


**
1.**

美丽的魔女,黑色长发,穿着黑色高领套头衫和黑色瑜伽裤,在一个神奇的智能企鹅文明祭坛旁摆姿势,雕像,动画艺术风格,魔鬼核心,超现实插画,32k uhd,龙的艺术,燃烧的哥特式背景,超现实的人物。
Beautiful demoness with long black hair, dressed in a black turtleneck jumper and black yoga pants, posing next to a magic Intelligent Penguin Civilization altar, a statue, in the style of anime art, devil-core, hyper-realistic illustrations, 32k uhd, dragon art, flaming gothic background, hyper-realistic characters.

Stable Diffusion 3

Midjourney V6

两款工具的画风都比较精致,但MJ6没能体现“魔女”,SD3则加入了眼睛异色、头上长角的元素。


2.

狮子肖像,黑白,逼真
lion portrait, black and white, photorealistic

Stable Diffusion 3

Midjourney V6

两款工具表现都很好,好到简直像是以同一只狮子的照片训练的。


3.

贴纸设计的武士宫本武藏,他与樱花树站在一起,平静,安详,极简的线条插图,黑色的灰色和橙色,白色的背景
sticker design of samurai Miyamoto Musashi, he is standing with cherry blossoms tree, he is standing calm, serene, minimalistic line illustration, black gray and orange colors, white background

Stable Diffusion 3

Midjourney V6

相比之下,MJ6更符合“极简”的要求。


4.

一堆垃圾,高得像一座山,活着的人类演员从里面伸出来,人类垃圾超写实,色彩鲜艳,现代,白色背景
pile of garbage, very tall like a mountain, alive human comedians sticking out of it, ala human garbage ultra realistic, colorful, modern, white background

Stable Diffusion 3

Midjourney V6

各有所长,但MJ6在人物的细节上面表现更好。


5.

泰伦斯·马利克拍摄的现代电影,当代在热气球上野餐和西蒙妮·吉尔兹吃糖果的场景
Cinematic film still of modern contemporary picnic in a hot air balloon and a simone giertz eating a candy bar by terrence malik

Stable Diffusion 3

Midjourney V6

提示词包含具体的导演风格和演员形象,两款工具不相伯仲,但对于表现“吃东西”都有点困难。


**6.
**
Stable Diffusion 3

Midjourney V6

个人感觉都差不多,但MJ6的工人是白人,SD3的工人是黑人?


7.

动作科幻电影中女主角的电影广角镜头,控制论增强,运动身体,未来主义,戏剧性的姿势,大胆的灯光,景深,引人注目的视觉效果
cinematic wide shot of a lead heroine in an action packed sci fi movie with cybernetic enhancements, athletic body, futuristic, dramatic pose, bold lighting, depth of field, striking visual effects

Stable Diffusion 3

### 当前最强大的文本生成像工具 在2024年,多个先进的文本转AI工具有着卓越的表现。其中一些工具不仅能够根据描述生成高质量的像,还能提供额外的功能来增强用户体验。 #### Stable Diffusion Stable Diffusion是一款开源的深度学习文本到像生成模型,它可以根据给定的文字描述创建逼真的像[^1]。该模型经过大量数据集训练,在艺术创作、概念验证等方面表现出色。由于其开放源码特性,社区贡献使得此工具不断进步和完善。 ```python from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler import torch model_id = "stabilityai/stable-diffusion-2-base" scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler") pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, revision="fp16", torch_dtype=torch.float16) pipe.to("cuda") prompt = "a photo of an astronaut riding a horse on mars" image = pipe(prompt).images[0] image.save("astronaut_rides_horse.png") ``` #### DALL-E 2 DALL-E 2是由OpenAI开发的新一代像生成系统,相较于之前的版本有了显著改进。它可以理解复杂的自然语言指令并据此绘制出前所未有的新奇场景或物品形象。此外,DALL-E 2还具备一定的创造力,可以用来探索新的视觉表达方式。 #### Midjourney MidJourney是一个专注于创意设计领域的AI平台,特别适合设计师用于灵感激发和技术实现之间的桥梁搭建工作。通过简单的命令行操作就能让机器按照人类意完成从草稿构思直至成品渲染整个流程的任务执行过程。 #### PhotoMaker PhotoMaker提供了人物写真生成等功能,虽然效果并非绝对完美,但在某些特定应用场景下仍然非常有用。例如情侣照片合成等个性化需求方面表现良好[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值