一、介绍
今天介绍个超厉害的遮罩提取的王炸,我们以前也分享过一次关于遮罩这块的介绍,里面有提到手动根据提示词来获取遮罩对吧,但是之前这种有个问题,就是无法非常精准的识别,你只能给物体名词。
那今天这个方案就是让你的提示词更加智能,接入了大模型Qwen2.5-VL,它可以对输入图像运行检测提示,这样我们就可以用自然语言很轻松的告诉它你要识别的物体,比如:左侧第二个女人、腰间有枪的男人、所有文字等等,再配合 SAM2,算是目前遮罩提取的王炸组合。
以上就是 TTPlanetPig 大佬开发的这个智能遮罩抠图的插件 Comfyui_Object_Detect_QWen_VL,非常强,绝对是精品插件,收藏+1。
但是这个我安装的时候折腾了一天,今天才搞定,这不马上就给大家分享我踩过的坑。
二、相关安装
安装这个插件真的是一波三折,这里就给大家分享下遇到的问题以及解决方案
插件地址:https://github.com/TTPlanetPig/Comfyui_Object_Detect_QWen_VL
节点管理器里面无法安装搜到,用命令安装
git clone https://github.com/TTPlanetPig/Comfyui_Object_Detect_QWen_VL.git
模型在运行的时候会自动下载,不过很慢,我建议你提前下载好。
模型地址:https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
官方是推荐用这个BF16版本的,太低的话可能会影响质量
网盘已经提供了这个模型下载,下载后放到路径 models/Qwen
下面即可。
将选定的 Qwen 2.5-VL 模型下载到 models/Qwen 中,并返回加载的模型和处理器。您可以选择将模型加载到哪个设备上(例如,如果您有多个 GPU,则为 cuda:1)、检查点的精度(INT4、INT8、BF16、FP16 或 FP32)以及是使用 FlashAttention 还是 SDPA。选择 FP32 精度时,FlashAttention 会自动替换为 SDPA,因为 FlashAttention 不支持它。
以上是正常情况下的安装,现在就是我遇到的各种问题
插件安装了启动失败
我第一次安装的时候,启动后发现无法加载这个插件,提示 transformers错误,我去看了下依赖版本,我的本地transformers也大于要求的4.41.2啊,那怎么还有问题。
解决方案是升级 transformers版本>=4.49即可。
无限下载问题
这个问题折腾了我一天,后来在作者视频评论区看到了解决方案。
问题是你执行的时候,会自动下载模型,而且是无限下载,我本身就提前把模型下载好了,但是运行的时候又会重新去下载。
看了下视频评论区有这么一段话
问题出在attention这里,选择的是 flash_attention_2,我本地没有安装这个加速的,所以出错无限下载。
解决方案有两种,一种是去安装上flash_attention_2,另外一种是其他人说的修改代码,忽略这个atten。
1、安装 flash_attention_2 轮子方案
轮子地址:https://github.com/kingbri1/flash-attention/releases
这里下载你本地适配的版本,核心看 tourch+cuda+python的版本,这里分别有linux和window的版本
我本地是torch 2.7+cuda 128 +python10
所以我最后下载的轮子是:flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp310-cp310-win_amd64.whl
然后把这个文件丢到comfyUI的python目录,执行下命令就安装上了
python.exe -m pip install flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp310-cp310-win_amd64.whl
安装好了这个我还以为可以了,结果又报了一个错误
Triton only support CUDA 10.0 or higher, but got CUDA version: 12.9
提示词我本地的Triton版本太低了,我之前安装的是Triton 3.1版本,以前这个也是要用轮子安装的,现在我看了最新的,好像直接不用轮子了,直接pip安装下即可。
python.exe -m pip uninstall triton
pip install -U "triton-windows<3.4"
分别执行上面这2个命令,就安装上了
2、脚本修改方案
这个我没试过,是一个人在评论区留言的
如果你实在等不及就用我这个吧,替换掉插件目录下的nodes.py文件,增加了模型检测,原文件会启用 FlashAttention2大部分人都会安装失败吧,我是安装失败了,节点增加了自行启用按钮,默认SDPA。我用夸克网盘分享了「nodes.py」,链接:https://pan.quark.cn/s/b70b1d554893 提取码:UYtG
OK,到此就是安装这个插件以及模型的解决方案,反正我这么折腾后可以跑起来了,但是你可能会遇到一个最大的问题,显存不够,这种就没办法了,自己去下载低版本的尝试,或者直接用线上RH平台玩吧。
三、使用说明
工作流已上传 runninghub 平台:
- 最强智能遮罩提取: https://www.runninghub.cn/post/1934512191934517249?inviteCode=kol01-rh024
这个大模型支持接入SAM2,SAM2目前有两种节点,分别是KJ大佬的和葫芦娃的,作者推荐用葫芦娃的,这不工作流里面都给出来,大家自己选择使用。
来看几个案例,让你知道这个大模型遮罩提取的厉害之处,对了这个模型支持中文,所以我们可以直接输入中文就好,方便很多。
这是素材图
第二个女人
可以很精准的识别出来,这就厉害了
男人
像下面这张图,直接用以前的遮罩提取是无法提取这么精准的
左上角的星球
下面是用以前的 SegmentAnything 和 SAM2 Ultra V2 跑的,相同的提示词,就没法精准的识别了。
腰间有枪的男人
下面来提取文字,世界输入你要提取的文字就好
"ELAN"
厉害了, 感觉可以做一个批量消除文字水印的流了后面。以前就是提取文字这块比较麻烦,现在有这个智能提取的模型了,就解决了这个卡点。
四、在线使用
云端镜像
大家如果没有本地 ComfyUI 环境,或者本地显卡配置低于 16G 的,可以使用嘟嘟部署的仙宫云镜像,可直接加载使用。后续分享的工作流都会更像到镜像中,一周更新一次,方便大学学习。
目前整合了2个镜像,一个是Flux绘图用的,另外一个是针对视频模型的,之所以分开是一些模型兼容问题,分开比较好处理。
镜像名称:嘟嘟AI绘画趣味学
云平台镜像地址:
https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY
https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY
新用户通过邀请码注册,总共可获得 8 元奖励,体验 4 个小时的 4090 作图时长。
RH平台
推荐不想本地自己折腾的同学一个可在线使用Runninghub平台可在线体验AI应用和工作流(注册即送1000积分可用)。
https://www.runninghub.cn/?inviteCode=kol01-rh024
主页更多精彩工作流可在线体验: https://www.runninghub.cn/user-center/1865434314359058434?inviteCode=kol01-rh024
五、总结
以上遮罩智能提取这个插件的介绍了,接入大模型后,好用了非常多,又是一个精品插件,必备系列,大家快来体验吧。
技术的迭代是飞快的,要关注最新的消息才不会掉队。
嘟嘟每天分享最新的ComfyUI技术前沿。
本篇中的工作流和模型网盘链接: https://pan.quark.cn/s/7632619919c0
我是嘟嘟,专注于 AI 绘画以及 AI 工具分享,欢迎来一起交流。
如果觉得文章有帮助,请帮忙点赞收藏关注一下呦~