stable diffusion InstantID插件 面部特征一致性风格保持与迁移

InstantID 介绍

Instant ID 是一个创新的无需调整的风格保持和迁移方法,能够结合了 ControlNet 和 IP-Adapter来控制扩散过程中的面部特征的风格迁移。InstantID 的一个独特设计在于将IP-Adapter中投影的面部嵌入作为交叉注意力输入传递给 ControlNetunet,而非使用常规方法:ControlNet unet的交叉注意力输入是提示的文本嵌入。如下图所示:

Instant ID 插件安装

Instant ID安装需要升级对应的sd-webui-controlnet插件,对应版本不低于v1.1.438。

Github仓库地址:https://github.com/Mikubill/sd-webui-controlnet

下载下来直接放到stable-diffusion-webui\extensions目录,目录名为sd-webui-controlnet

模型下载

下载对应模型,并将其放置在stable-diffusion-webui/models/ControlNet目录下。同时需要将模型重命名为ip- adapter_instant_id_sdxl.bincontrol_instant_id_sdxl.safetensors,以便插件能够正确识别这两个模型

  • IP-Adapter模型:https://huggingface.co/InstantX/InstantID/resolve/main/ip-adapter.bin?download=true

  • ControlNet 模型https://huggingface.co/InstantX/InstantID/resolve/main/ControlNetModel/diffusion_pytorch_model.safetensors?download=true

Instant ID 使用

在SD-WebUI 中使用InstantID插件需要设置两个模型。并且,需要牢记:应该始终将 ipadapter 模型始终设置为第一个模型,因为ControlNet 模型需要接收 ipadapter 模型的输出作为后续输入。

Unit 0 设置

在 ControlNet 单元之前,必须设置 ip-adapter单元。IP-Adapter 单元输出的面部嵌入将作为下一个 ControlNet单元的输入之一。

Unit 1 设置

ControlNet 单元接受包含面部5个关键点的关键点图,因此需要在Unit 1中使用keypoints选项。在这里可以使用与Unit 0中相同的人物的面部关键点,也可以不使用同一张面部图像作为输入。

另外,在官方文档中建议:将 CFG 设置为 4~5 以获得最佳结果。同时也提到,根据采样方法和基础模型这个数字可能会有所不同,但通常需要使用的 CFG比例略低于正常的CFG。同时还提到,如果将宽度x高度设置为1024*1024,那么生成水印、徽标的几率更高。这不能通过在负面提示中添加徽标水印关键词来纠正。可以通过设置其他宽度x 高度值来避免这个问题。

效果

大致的风格是有了,我电脑比较不行参数调低了,画面比较模糊。

参数

woman,moyou, solo, on side, dress, lying, black hair, blue dress, snow, blue
eyes, blue theme, looking at viewer, bare shoulders, lips, hair ornament, bare
arms, A Beautiful Chinese Woman,
,(masterpiece:1.2), best quality, masterpiece, highres, original, extremely
detailed wallpaper, perfect lighting,(extremely detailed CG:1.2),
Negative prompt: NSFW, (worst quality:2), (low quality:2), (normal quality:2),
lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin
blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21),
(mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5),
blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs,
(disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused
fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers,
bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra
arms and legs))),
Steps: 20, Sampler: DPM++ 2M, Schedule type: Karras, CFG scale: 7, Seed:
272102459, Size: 512x750, Model hash: 573f4a7d35, Model:
leosamsHelloworldXL_helloworldXL70, ControlNet 0: “Module:
instant_id_face_embedding, Model: ip-adapter_instant_id_sdxl [eb2d3ec0],
Weight: 1.0, Resize Mode: Crop and Resize, Processor Res: 512, Threshold A:
0.5, Threshold B: 0.5, Guidance Start: 0.0, Guidance End: 1.0, Pixel Perfect:
True, Control Mode: Balanced”, ControlNet 1: “Module:
instant_id_face_keypoints, Model: control_instant_id_sdxl [c5c25a50], Weight:
1.0, Resize Mode: Crop and Resize, Processor Res: 512, Threshold A: 0.5,
Threshold B: 0.5, Guidance Start: 0.0, Guidance End: 1.0, Pixel Perfect: True,
Control Mode: Balanced”, Version: 1.9.4

Guidance End: 1.0, Pixel Perfect: True,
Control Mode: Balanced”, Version: 1.9.4

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!

零基础AI绘画学习资源介绍

👉stable diffusion新手0基础入门PDF👈

(全套教程文末领取哈)
在这里插入图片描述

👉AI绘画必备工具👈

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉12000+AI关键词大合集👈

在这里插入图片描述

这份完整版的AI绘画全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### 如何在 Stable Diffusion 模型中融合文本特征图像特征 Stable Diffusion 是一种基于扩散模型的深度学习框架,能够高效生成高质量图像。要实现文本特征图像特征的有效融合以提升生成效果,通常涉及以下几个方面: #### 1. **潜在空间中的联合编码** Stable Diffusion 使用潜在扩散模型 (Latent Diffusion Model, LDM),将高分辨率图像压缩到低维潜空间中处理[^2]。在此过程中,可以通过设计共享的潜在表示来结合文本和图像特征。具体来说: - 利用预训练的语言模型(如 CLIP 或 BERT),提取输入文本的语义嵌入向量。 - 将这些语义嵌入作为条件信息注入到扩散网络中,影响噪声预测过程。 这种做法允许模型理解文本描述并调整生成方向,从而更贴合用户的期望[^3]。 #### 2. **跨模态注意力机制的应用** 为了更好地捕捉文本图像间的关联性,可以在模型内部加入跨模态注意力模块。例如: - 在 U-Net 架构的核心层之间增加多头自注意力单元,使每一阶段都能感知全局上下文信息。 - 这些注意力权重由来自两个不同源的数据共同决定——即视觉像素分布以及自然语言序列。 这种方法不仅增强了表达能力,还促进了异质数据间的一致性和协调性[^1]。 ```python import torch.nn as nn class CrossModalAttention(nn.Module): def __init__(self, dim_text=768, dim_image=512): super(CrossModalAttention, self).__init__() self.attention = nn.MultiheadAttention(embed_dim=max(dim_text,dim_image), num_heads=8) def forward(self, text_features, image_features): combined_input = torch.cat([text_features.unsqueeze(0), image_features.unsqueeze(0)], dim=0) output, _ = self.attention(combined_input, combined_input, combined_input) return output.squeeze(0).split((len(text_features), len(image_features)), dim=0)[0], \ output.squeeze(0).split((len(text_features), len(image_features)), dim=0)[1] ``` 此代码片段展示了一个简单的交叉模态注意力建立方式,其中 `dim_text` 和 `dim_image` 表示各自特征维度大小。 #### 3. **微调策略优化特定领域表现** 当目标应用场景具有独特风格或者主题时,可考虑采用迁移学习方法对基础版本进行个性化适配。比如针对艺术创作类任务,可以从公开可用的大规模数据集中挑选相似样本组成新集合用于再训练;而对于医学影像重建等领域,则需收集专业化标注资料完成监督式精修操作[^4]。 此外,还可以尝试冻结部分骨干结构而仅更新新增组件参数的方式降低计算开销的同时保持原有良好特性不变。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值