Stable Diffusion之提示词指南(一)_stable diffusion 提示词-CSDN博客

本文链接：https://blog.csdn.net/Java_Joker/article/details/144467106

前言

在之前的文章中我们介绍了Stable Diffusion的基础参数，我们知道使用Stable Diffusion UI基础的操作流程并不复杂，主要分为 4 个步骤：选择模型 —> 填写提示词 —> 设置参数 —> 点击生成。

通过操作流程我们知道，最终的出图效果是由模型、提示词、参数设置三者共同决定的，缺一不可。其中，模型主要决定画风、提示词主要决定画面内容，而参数则主要用于设置图像的预设属性。

这期我们主要讲解一下提示词，构建好的提示词是每个Stable Diffusion用户需要学习的第一步，好的提示词简单且事半功效。

所有的AI设计工具，安装包、模型和插件，都已经整理好了，👇获取~

在这里插入图片描述

什么是提示词(Prompt)

Prompt(提示词)就是我们给AI模型下发的指令，也就是指用户输入的文本或图像信息。目的是指导模型生成我们想要的艺术作品。直白一点来说它就是我们告诉AI我们要画什么，要画成什么的一种“指令”，提示词包含的内容是非常广泛的，它可能包括作品主题、画风、形象特点以及一些具体包含的元素等。这有点类似像程序代码，代码逻辑写对了，程序才能正常运行，代码写的越好。

如今的 AI 工具都是基于底层大模型进行使用的，提示词的本质其实是对这个大模型的深入挖掘和微调，我们可以将它简单理解为人类和 AI 沟通的桥梁，因为模型反馈结果的质量在很大程度上取决于用户提供的信息量。

一句话说简单说来，为了更好的控制AI，人们逐渐摸索出通过反馈来约束模型的方法，原理就是当模型在执行任务的时候，人类提供正面或负面的反馈来指导模型的行为。而这种用于指导模型的信息，就被统称为Prompt提示词。

现在很多企业还单独设立了提示工程师岗位，在人工智能领域也有单独的一门学科叫做 Prompt Engineering 提示词工程。

想要学习的可以参考具体文档：https://www.promptingguide.ai/zh

而在图像生成领域，提示词就是我们用来调节绘图模型的一种指令，通过输入想要的内容和效果，模型就能理解我们想表达的含义，从而实现准确的出图效果。如下图展示了Web UI中设置的提示词界面，可知道在生成图片的参数中包含正向提示词和反向提示词。

正向提示词：简单说就是告诉AI你想要绘制什么，需要在画面中出现的内容。

负向提示词：简单说就是告诉AI你想不要绘制什么，不要在画面中出现的内容。

那这些提示词的规则是怎么样的呢，我准备分几期来介绍，这期我们介绍一下正向提示词。

提示词的基本规则

1.只支持识别英文

模型是无法理解中文字符的，Stable Diffusion 只支持识别英文提示词，但我们可以不必遵循英文语法。

2.描述词组化

以词组形式分段输入即可，词组间使用英文逗号进行分隔。除了部分特定语法外，大部分情况下字母大小写和断行也不会影响画面内容，我们可以直接将不同部分的提示词进行断行，由此来提高提示词的可读性。

不要出现一些短句，比如：[一个漂亮的长发蓝眼睛女生坐在公园的椅子上]，对于这种短句来说，[一个女孩] [长发] [蓝眼睛] [公园] [椅子] [坐在椅子上] 这种词组更容易让大模型理解。

3.同义词转化

比如：一个女孩，可以是A girl或 1 girl，大模块更容易理解 1 gril，再比如：A little girl，AI更容易理解 loli，solo。

4.提示词顺序

提示词放入的顺序就是优先级，权重值从前向后递减。

5.提示词长度

不要堆积叠加过多的提示词，AI会记不住，如果内容特别多,可以适当提高迭代步数。

根据使用的Stable Diffusion服务，提示词中可能有最大长度限制。在基本Stable Diffusion v1 模型中，该限制为 75 个token。

Web UI 中的限制：

Web UI没有token限制。如果提示词包含超过 75 个token（CLIP token生成器的限制），它将启动另外 75 个token的新块，因此新的“限制”变为 150。该过程可以永远继续，或者直到你的计算机内存不足…

所以我们的描述最好是75个token为一组，模型会根据每组的描述进行理解。

每个 75 个token块都经过独立处理，生成的表示在输入到 Stable Diffusion 的 U-Net 之前会被连接起来。

在Web UI中，你可以通过查看提示词输入框右上角的小框来检查token的数量。

如何写好提示词

常用的关键词类

要写好一份提示词，遵循原则为尽可能详细并且具体，从不同角度进行详细描述。

下面从9个角度来介绍输入关键词：

(1) 主体 Subject（必须）

即图片的内容，描述你想画的具体是什么事物。

(2) 媒介 Medium

指定图片的形式，例如photo（照片）、oil painting（油画）、watercolor（水彩画）等。

关键字	描述
Portrait	非常逼真的图画，适合与人一起使用。将图像聚焦在脸部/头上
Digital painting	数字艺术风格
Concept art	插画风格，2D
Ultra realistic illustration	画得非常通真。适合与人一起使用
Underwater portrait	与人一起使用。水下。头发飘动
Underwater steampunk	非常逼真的图画，适合与人一起使用。水下蒸汽朋克

(3) 风格 Style

以什么样的风格进行绘制，例如hyperrealistic（超现实的）、pop-art（流行艺术）、modernist（现代派）、art nouveau（新艺术风格）等。

关键字	描述
hyperrealistic	增加细节和分辨率
pop-art	波普艺术风格
Modernist	色彩鲜艳，对比度高
art nouveau	添加装饰品和细节，建筑风格

(4) 画家 Artist

可以指定一位艺术家的名字，让AI以该艺术家的风格进行绘制。需要模型中有该艺术家的风格数据方可指定，例如Picasso（比加索）、Vincent van Gogh（梵高）等知名艺术家。

关键字	描述
John Collier	19世纪肖像画家。增添优雅
Stanley Artgerm Lau	适合与女性肖像一起使用，生成十九世纪精致的服装，有些印象派
Frida Kahlo	效仿卡罗肖像风格的效果相当强烈。有时会导致相框
John Singer Sargent	适合与女性肖像一起使用，生成19世纪精致的服装，有些印象派
Alphonse Mucha	Alphonse Mucha 风格的 2D 肖像画

(5) 网站 Website

以什么网站的风格进行绘制，例如pixiv（日本动漫风格）、pixabay（商业库存照片风格）、artstation（现代插画、幻想）等

关键字	描述
pixiv	日本动漫风格
pixabay	商业库存照片风格
artstation	现代插画、奇幻

(6) 分辨率 Resolution

指定图片的分辨率，会影响图片的渲染细节，例如unreal engine（Unreal游戏引擎风格，可用于渲染非常逼真和详细的3D图片）、sharp focus（锐利对焦）、8k（提高分辨率）、vray（虚拟现实，适合渲染3D的物体、景观、建筑等）等。

关键字	描述
unreal engine	非常逼真和详细的3D
sharp focus	提高分辨率
8k	提高分辨率，但可能会导致它看起来更假。使图像更像相机且真实
vray	3D渲染最适合物体、景观和建筑

(7) 额外细节 Additional details

为图像添加额外的细节，例如dramatic（戏剧性，增强脸部的情绪表现力）、silk（使用丝绸服装）、expansive（背景更大，主体更小）、low angle shot（从低角度拍摄）、god rays（阳光冲破云层）、psychedelic（色彩鲜艳且有失真）等。

关键字	描述
dramatic	从低角度拍摄
silk	在衣服上添加丝绸
expansive	更开放的背景，更小的主题
low angle shot	从低角度拍摄
god rays	阳光冲破云层
psychedelic	色彩鲜艳但失真

(8) 色调 Color

为图像添加额外的配色方案，例如iridescent gold（闪亮的金色）、silver（银色）、vintage（复古效果）等。

关键字	描述
iridescent gold	闪亮的金色
silver	银色
vintage	复古效果

(9) 光影 Lighting

光影 Lighting，是指图像里的光照描述，改变光照可以对图像效果产生巨大影响。

关键字	描述
rim lighting	物体边缘的光
cinematic lighting	利用光提高对比度的通用术语
crepuscular rays	阳光冲破云层

你不必每次都使用所有类别的关键字，将它们当做备忘清单就好。在使用的时候可以进行参考。

以下所有图像模型都使用DreamShaper，均由DPM++ 2M Karas采样器的25步生成，图像尺寸为512×768，同时我们统一不使用负提示词，再后面再讲解负提示词的作用。

主体 Subject:

你会得到一些不错的图像，但这个提示留下了太多的想象空间。

你希望女巫看起来怎么样？你有什么关键词可以更具体地描述她吗？她穿什么？她到底施展了什么魔法？她是站立、奔跑还是漂浮在空中？背景场景是什么？

Stable Diffusion无法读懂我们的想法。我们必须准确地说出我们想要什么。

作为演示，我们假设女巫她强大而神秘，并且使用闪电魔法。她穿着镶有宝石的皮革服装。她坐在一块岩石上。她戴着帽子。背景是一座城堡。

现在，我们生成更具体的图像。图像中的服装、姿势和背景是一致的。

媒介 Medium:

现在让我们尝试添加关键字(digital art)数字艺术。

图像从写实绘画风格转变为更像计算机图形风格。

风格 Style：

我们继续在提示中添加(hyperrealistic)超现实、(fantasy)幻想、(dark art)黑暗艺术。

好了，现在场面变得更加黑暗，更加阴森。

网站 Website：

让我们将 artstation 添加到提示中。

这并不是一个巨大的变化，但这些图像确实看起来像你在 Artstation 上看到的那样。

分辨率 Resolution：

我们添加(highly detailed)非常详细，(sharp focus)锐利的焦点，到提示中。

好吧，这并不是一个很大的效果，也许是因为之前的图像已经非常清晰和详细。但添加也没什么坏处。

额外细节 Additional details：

同上，我们添加(sci-fi)科幻，(dystopian)反乌托邦的，到提示词中。

色调 Color：

继续让我们使用关键字(iridescent gold)虹彩金，为图像添加一些金色。

黄金在一些地方，比如衣服上表现得很好！

光影 Lighting：

任何摄影师都会告诉您光影是创造成功图像的关键。照明关键字会对图像的外观产生巨大影响。让我们添加(studio lighting)工作室灯光，使其像工作室照片一样。

至此，我们就完成了的提示词的示例。

通过上面示例，我们注意到，仅添加几个关键字，图像就已经相当不错了。构建提示时并不总是越多越好。通常不需要很多关键词就能获得好的图像。

提示词语法

万能公式

提示词即对画面的描述，你想要出现在画面中的内容。而对于不同风格的画面，我们可以有不同的语法范式。

完整的一个通用性提示词语法是这样的：

(quality),(subject),(style),(action/scene),(artist),(filters)

(quality)：代表画面的品质，通常我们选用 Best Quality 最高质量来控制
(subject)：代表画面的主题,形成画面的主要内容,这是所有提示词的组成最关键部分。
(style)：代表画面效果的艺术风格。
(action/scene)：代表动作、场景，主要用来描述了主体在什么场景，做了什么事情。
(artist): 代表艺术家名字，对于特定的风格强化，如梵高风格很好用，平时可以不用加。
(filters)：代表细节补充描述。这是让画面更加丰富，更加具有个性和可控细节的。

比如：

这代表什么呢？翻译成中文是这样的短语，它包含了画面整体的描述，主题内容，场景要求：“最佳质量，杰作，高分辨率，一个女孩，中世纪盔甲，发饰，项链，珠宝，美丽的脸庞，身体上方，泰因德尔效应，逼真的照片效果，暗室摄影，边缘光照明，双色照明，（高度详细的皮肤：1.2），8K超高清，数码单反相机，柔和的光线，高质量，体积光照明，真实自然的摄影，高分辨率摄影，4K，8K，背景虚化。”