前言
在之前的文章中我们介绍了Stable Diffusion的基础参数,我们知道使用Stable Diffusion UI基础的操作流程并不复杂,主要分为 4 个步骤:选择模型 —> 填写提示词 —> 设置参数 —> 点击生成。
通过操作流程我们知道,最终的出图效果是由模型、提示词、参数设置三者共同决定的,缺一不可。其中,模型主要决定画风、提示词主要决定画面内容,而参数则主要用于设置图像的预设属性。
这期我们主要讲解一下提示词,构建好的提示词是每个Stable Diffusion用户需要学习的第一步,好的提示词简单且事半功效。
所有的AI设计工具,安装包、模型和插件,都已经整理好了,👇获取~
什么是提示词(Prompt)
Prompt(提示词)就是我们给AI模型下发的指令,也就是指用户输入的文本或图像信息。目的是指导模型生成我们想要的艺术作品。直白一点来说它就是我们告诉AI我们要画什么,要画成什么的一种“指令”,提示词包含的内容是非常广泛的,它可能包括作品主题、画风、形象特点以及一些具体包含的元素等。这有点类似像程序代码,代码逻辑写对了,程序才能正常运行,代码写的越好。
如今的 AI 工具都是基于底层大模型进行使用的,提示词的本质其实是对这个大模型的深入挖掘和微调,我们可以将它简单理解为人类和 AI 沟通的桥梁,因为模型反馈结果的质量在很大程度上取决于用户提供的信息量。
一句话说简单说来,为了更好的控制AI,人们逐渐摸索出通过反馈来约束模型的方法,原理就是当模型在执行任务的时候,人类提供正面或负面的反馈来指导模型的行为。而这种用于指导模型的信息,就被统称为Prompt提示词。
现在很多企业还单独设立了提示工程师岗位,在人工智能领域也有单独的一门学科叫做 Prompt Engineering 提示词工程。
想要学习的可以参考具体文档:https://www.promptingguide.ai/zh
而在图像生成领域,提示词就是我们用来调节绘图模型的一种指令,通过输入想要的内容和效果,模型就能理解我们想表达的含义,从而实现准确的出图效果。如下图展示了Web UI中设置的提示词界面,可知道在生成图片的参数中包含正向提示词和反向提示词。
正向提示词:简单说就是告诉AI你想要绘制什么,需要在画面中出现的内容。
负向提示词:简单说就是告诉AI你想不要绘制什么,不要在画面中出现的内容。
那这些提示词的规则是怎么样的呢,我准备分几期来介绍,这期我们介绍一下正向提示词。
提示词的基本规则
1.只支持识别英文
模型是无法理解中文字符的,Stable Diffusion 只支持识别英文提示词,但我们可以不必遵循英文语法。
2.描述词组化
以词组形式分段输入即可,词组间使用英文逗号进行分隔。除了部分特定语法外,大部分情况下字母大小写和断行也不会影响画面内容,我们可以直接将不同部分的提示词进行断行,由此来提高提示词的可读性。
不要出现一些短句,比如:[一个漂亮的长发蓝眼睛女生坐在公园的椅子上], 对于这种短句来说,[一个女孩] [长发] [蓝眼睛] [公园] [椅子] [坐在椅子上] 这种词组更容易让大模型理解。
3.同义词转化
比如:一个女孩,可以是A girl或 1 girl,大模块更容易理解 1 gril,再比如:A little girl,AI更容易理解 loli,solo。
4.提示词顺序
提示词放入的顺序就是优先级,权重值从前向后递减。
5.提示词长度
不要堆积叠加过多的提示词,AI会记不住,如果内容特别多,可以适当提高迭代步数。
根据使用的Stable Diffusion服务,提示词中可能有最大长度限制。在基本Stable Diffusion v1 模型中,该限制为 75 个token。
Web UI 中的限制:
Web UI没有token限制。如果提示词包含超过 75 个token(CLIP token生成器的限制),它将启动另外 75 个token的新块,因此新的“限制”变为 150。该过程可以永远继续,或者直到你的计算机内存不足…
所以我们的描述最好是75个token为一组,模型会根据每组的描述进行理解。
每个 75 个token块都经过独立处理,生成的表示在输入到 Stable Diffusion 的 U-Net 之前会被连接起来。
在Web UI中,你可以通过查看提示词输入框右上角的小框来检查token的数量。
如何写好提示词
常用的关键词类
要写好一份提示词,遵循原则为尽可能详细并且具体,从不同角度进行详细描述。
下面从9个角度来介绍输入关键词:
(1) 主体 Subject(必须)
即图片的内容,描述你想画的具体是什么事物。
(2) 媒介 Medium
指定图片的形式,例如photo(照片)、oil painting(油画)、watercolor(水彩画)等。
关键字 | 描述 |
---|---|
Portrait | 非常逼真的图画,适合与人一起使用。将图像聚焦在脸部/头上 |
Digital painting | 数字艺术风格 |
Concept art | 插画风格,2D |
Ultra realistic illustration | 画得非常通真。适合与人一起使用 |
Underwater portrait | 与人一起使用。水下。头发飘动 |
Underwater steampunk | 非常逼真的图画,适合与人一起使用。水下蒸汽朋克 |
(3) 风格 Style
以什么样的风格进行绘制,例如hyperrealistic(超现实的)、pop-art(流行艺术)、modernist(现代派)、art nouveau(新艺术风格)等。
关键字 | 描述 |
---|---|
hyperrealistic | 增加细节和分辨率 |
pop-art | 波普艺术风格 |
Modernist | 色彩鲜艳,对比度高 |
art nouveau | 添加装饰品和细节,建筑风格 |
(4) 画家 Artist
可以指定一位艺术家的名字,让AI以该艺术家的风格进行绘制。需要模型中有该艺术家的风格数据方可指定,例如Picasso(比加索)、Vincent van Gogh(梵高)等知名艺术家。
关键字 | 描述 |
---|---|
John Collier | 19世纪肖像画家。增添优雅 |
Stanley Artgerm Lau | 适合与女性肖像一起使用,生成十九世纪精致的服装,有些印象派 |
Frida Kahlo | 效仿卡罗肖像风格的效果相当强烈。有时会导致相框 |
John Singer Sargent | 适合与女性肖像一起使用,生成19世纪精致的服装,有些印象派 |
Alphonse Mucha | Alphonse Mucha 风格的 2D 肖像画 |
(5) 网站 Website
以什么网站的风格进行绘制,例如pixiv(日本动漫风格)、pixabay(商业库存照片风格)、artstation(现代插画、幻想)等
关键字 | 描述 |
---|---|
pixiv | 日本动漫风格 |
pixabay | 商业库存照片风格 |
artstation | 现代插画、奇幻 |
(6) 分辨率 Resolution
指定图片的分辨率,会影响图片的渲染细节,例如unreal engine(Unreal游戏引擎风格,可用于渲染非常逼真和详细的3D图片)、sharp focus(锐利对焦)、8k(提高分辨率)、vray(虚拟现实,适合渲染3D的物体、景观、建筑等)等。
关键字 | 描述 |
---|---|
unreal engine | 非常逼真和详细的3D |
sharp focus | 提高分辨率 |
8k | 提高分辨率,但可能会导致它看起来更假。使图像更像相机且真实 |
vray | 3D渲染最适合物体、景观和建筑 |
(7) 额外细节 Additional details
为图像添加额外的细节,例如dramatic(戏剧性,增强脸部的情绪表现力)、silk(使用丝绸服装)、expansive(背景更大,主体更小)、low angle shot(从低角度拍摄)、god rays(阳光冲破云层)、psychedelic(色彩鲜艳且有失真)等。
关键字 | 描述 |
---|---|
dramatic | 从低角度拍摄 |
silk | 在衣服上添加丝绸 |
expansive | 更开放的背景,更小的主题 |
low angle shot | 从低角度拍摄 |
god rays | 阳光冲破云层 |
psychedelic | 色彩鲜艳但失真 |
(8) 色调 Color
为图像添加额外的配色方案,例如iridescent gold(闪亮的金色)、silver(银色)、vintage(复古效果)等。
关键字 | 描述 |
---|---|
iridescent gold | 闪亮的金色 |
silver | 银色 |
vintage | 复古效果 |
(9) 光影 Lighting
光影 Lighting,是指图像里的光照描述,改变光照可以对图像效果产生巨大影响。
关键字 | 描述 |
---|---|
rim lighting | 物体边缘的光 |
cinematic lighting | 利用光提高对比度的通用术语 |
crepuscular rays | 阳光冲破云层 |
你不必每次都使用所有类别的关键字,将它们当做备忘清单就好。在使用的时候可以进行参考。
以下所有图像模型都使用DreamShaper,均由DPM++ 2M Karas采样器的25步生成,图像尺寸为512×768,同时我们统一不使用负提示词,再后面再讲解负提示词的作用。
主体 Subject:
A sorceress
你会得到一些不错的图像,但这个提示留下了太多的想象空间。
你希望女巫看起来怎么样?你有什么关键词可以更具体地描述她吗?她穿什么?她到底施展了什么魔法?她是站立、奔跑还是漂浮在空中?背景场景是什么?
Stable Diffusion无法读懂我们的想法。我们必须准确地说出我们想要什么。
作为演示,我们假设女巫她强大而神秘,并且使用闪电魔法。她穿着镶有宝石的皮革服装。她坐在一块岩石上。她戴着帽子。背景是一座城堡。
a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background
现在,我们生成更具体的图像。图像中的服装、姿势和背景是一致的。
媒介 Medium:
现在让我们尝试添加关键字(digital art)数字艺术。
a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art
图像从写实绘画风格转变为更像计算机图形风格。
风格 Style:
我们继续在提示中添加(hyperrealistic)超现实、(fantasy)幻想、(dark art)黑暗艺术。
a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art
好了,现在场面变得更加黑暗,更加阴森。
网站 Website:
让我们将 artstation 添加到提示中。
a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation
这并不是一个巨大的变化,但这些图像确实看起来像你在 Artstation 上看到的那样。
分辨率 Resolution:
我们添加(highly detailed)非常详细,(sharp focus)锐利的焦点,到提示中。
a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation, highly detailed, sharp focus
好吧,这并不是一个很大的效果,也许是因为之前的图像已经非常清晰和详细。但添加也没什么坏处。
额外细节 Additional details:
同上,我们添加(sci-fi)科幻,(dystopian)反乌托邦的,到提示词中。
a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation, highly detailed, sharp focus, sci-fi, dystopian
色调 Color:
继续让我们使用关键字(iridescent gold)虹彩金, 为图像添加一些金色。
a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation, highly detailed, sharp focus, sci-fi, dystopian, iridescent gold
黄金在一些地方,比如衣服上表现得很好!
光影 Lighting:
任何摄影师都会告诉您光影是创造成功图像的关键。照明关键字会对图像的外观产生巨大影响。让我们添加(studio lighting)工作室灯光,使其像工作室照片一样。
a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation, highly detailed, sharp focus, sci-fi, dystopian, iridescent gold, studio lighting
至此,我们就完成了的提示词的示例。
通过上面示例,我们注意到,仅添加几个关键字,图像就已经相当不错了。构建提示时并不总是越多越好。通常不需要很多关键词就能获得好的图像。
提示词语法
万能公式
提示词即对画面的描述,你想要出现在画面中的内容。而对于不同风格的画面,我们可以有不同的语法范式。
完整的一个通用性提示词语法是这样的:
(quality),(subject),(style),(action/scene),(artist),(filters)
(quality):代表画面的品质,通常我们选用 Best Quality 最高质量来控制
(subject):代表画面的主题,形成画面的主要内容,这是所有提示词的组成最关键部分。
(style):代表画面效果的艺术风格。
(action/scene):代表动作、场景,主要用来描述了主体在什么场景,做了什么事情。
(artist): 代表艺术家名字,对于特定的风格强化,如梵高风格很好用,平时可以不用加。
(filters):代表细节补充描述。这是让画面更加丰富,更加具有个性和可控细节的。
比如:
best quality, masterpiece, highres, 1girl, medieval armor, hair ornament, necklace, jewelry, Beautiful face, upon_body, tyndall effect, photorealistic, dark studio, rim lighting, two tone lighting, (high detailed skin:1.2), 8k uhd, dslr, soft lighting, high quality, volumetric lighting, candid, Photograph, high resolution, 4k, 8k, Bokeh
这代表什么呢?翻译成中文是这样的短语,它包含了画面整体的描述,主题内容,场景要求:“最佳质量,杰作,高分辨率,一个女孩,中世纪盔甲,发饰,项链,珠宝,美丽的脸庞,身体上方,泰因德尔效应,逼真的照片效果,暗室摄影,边缘光照明,双色照明,(高度详细的皮肤:1.2),8K超高清,数码单反相机,柔和的光线,高质量,体积光照明,真实自然的摄影,高分辨率摄影,4K,8K,背景虚化。”
权重调整
强调关键词,这应该是使用最为频繁的语法了。强调关键词是依赖括号和数值来控制特定关键词的权重,当权重数值越高,说明模型对该关键词更加重视,在运行过程中模型就会着重绘制该部分的元素,在最终成像时图片中就会体现更多对应信息。反之数值越低,则最终图片中对应内容会展示的更少。
控制关键词的括号共有三种类型:圆括号()、花括号{}和方括号[],分别表示将括号内关键词的权重调整到原有的 1.1 倍、1.05 倍和 0.9 倍。其中花括号{}平时很少会使用,一般都是用圆括号()和方括号[]。
除了直接加括号外,还有一种更常用的控制权重方法,那就是直接填写数值。
比如:(red hair:1.5),这个形式代表的是(提示词短语:权重系数)。权重数值默认为1。数值小于1表示弱化,数值大于1表示强化,通常我们权重系数会设置在0.3~1.6之间。而在Stable Diffusion的提示词使用中,使用()表示强化,使用[]表示弱化。
floral dress,(red hair:1.5),denim jacket,white sneakers,
比如我们在这次绘图中,注重强调了红色头发。
我们可以使用多层嵌套来进一步增强或减弱提示词的重要性。
(keyword)等于将权重提高到 1.1 倍,((keyword))则将权重提高到 1.21 倍(=1.1 x 1.1),[keyword]-将权重降低到 90.91%,(keyword:1.5)则是将权重提高到 1.5 倍,(keyword:0.25)是将权重减少为原先的25%。
总结一下:
-
英文圆括号(tag):每套一层权重增加1.1 倍
-
英文大括号{tag}:每套一层权重增加1.05 倍
-
英文方括号[tag]:每套一层权重减少0.9 倍(减权重)
-
英文圆括号(tag:N):指定权重 x N倍
-
多层括号就是叠加计算:
[[tag]]
将权重调整为原来的0.81倍(0.9 x 0.9),((tag))
则将权重提高到1.21倍(1.1 x 1.1)
除次之外还有关键词混合(分步绘制,停止绘制),打断提示词,融合提示词,交替绘制,矩阵排列,负向提示词等知识我们在下一节进行介绍。
工具和插件推荐
sd-webui-prompt-all-in-one提示词插件
最后我们介绍一下相关插件,推荐一个prompt的Web UI插件sd-webui-prompt-all-in-one。
Github地址:https://aiodoc.physton.com/zh-CN/Installation.html
对应的文档也很齐全,这里就不多介绍了,大家可以参考安装文档安装一下。
安装文档:https://aiodoc.physton.com/zh-CN/Installation.html
使用很方便,还支持翻译,收藏,主题,历史prompt记录,GPT生成提示词等功能。
Prompt工具
最后给大家推荐一些Prompt生成的工具。
MagicPrompt-Stable-Diffusion
这个是huggingface提供的生成地址,
地址:https://huggingface.co/spaces/Gustavosta/MagicPrompt-Stable-Diffusion
AI绘画提示词生成器
和插件sd-webui-prompt-all-in-one类似的工具,一个在线网站生成Prompt工具。
地址:http://www.atoolbox.net/Tool.php?Id=1101
AI画廊
地址:https://www.aigallery.top/?engine=stable
网站获取提示词
civitai站点
地址:https://civitai.com/
访问civitai,选中图片后,点击图片,然后选中COPY ALL
获取对应的数据。
将粘贴的数据,放到正提示框中,点击生成下角的箭头按钮,就会自动生成到对应的提示词,非常方便我们复现和学习提示词。
liblib站点
地址:https://www.liblib.art/
选中图片,然后点击复制全部,接着就和上面一样操作,COPY到Web UI操作就行了。
好了今天的分享就到这里了,要出好一张图提示词也至关重要,在这里我分享这份提示词大全给大家!
Stable Diffusion 最强提示词手册
- Stable Diffusion介绍
- OpenArt介绍
- 提示词(Prompt) 工程介绍
- …
第一章、提示词格式
- 提问引导
- 示例
- 单词的顺序
- …
有需要的朋友,可以点击下方卡片免费领取!
第二章、修饰词(Modifiers)
- Photography/摄影
- Art Mediums/艺术媒介
- Artists/艺术家
- Illustration/插图
- Emotions/情感
- Aesthetics/美学
- …
第三章、 Magic words(咒语)
- Highly detailed/高细节
- Professional/专业
- Vivid Colors/鲜艳的颜色
- Bokeh/背景虚化
- Sketch vs Painting/素描 vs 绘画
- …
第四章、Stable Diffusion参数
- Resolution/分辨率
- CFC/提词相关性
- Step count/步数
- Seed/种子
- Sampler/采样
- 反向提示词(Prompt)
第5章 img2img(图生图),in/outpainting(扩展/重绘)
- 将草图转化为专业艺术作品
- 风格转换
- lmg2lmg 变体
- Img2lmg+多个AI问题
- lmg2lmg 低强度变体
- 重绘
- 扩展/裁剪
- …
第6章 重要提示
- 词语的顺序和词语本身一样重要
- 不要忘记常规工具
- 反向提示词(Prompt)
- …
第7章 OpenArt展示
- 提示词 (Prompt)
- 案例展示
- …
篇幅有限,这里就不一一展示了,有需要的朋友可以点击下方的卡片进行领取!