告别手动抠图！Qwen2.5-VL+SAM2梦幻联动：用自然语言精准锁定「腰间带枪的男人」，遮罩提取进入智能时代！

嘟嘟MD

于 2025-06-17 11:57:06 发布

阅读量708

点赞数 23

CC 4.0 BY-SA版权

分类专栏： ComfyUI一本通文章标签： AIGC ai绘画

本文链接：https://blog.csdn.net/c3618392/article/details/148712615

ComfyUI一本通专栏收录该内容

19 篇文章

订阅专栏

一、介绍

今天介绍个超厉害的遮罩提取的王炸，我们以前也分享过一次关于遮罩这块的介绍，里面有提到手动根据提示词来获取遮罩对吧，但是之前这种有个问题，就是无法非常精准的识别，你只能给物体名词。

那今天这个方案就是让你的提示词更加智能，接入了大模型Qwen2.5-VL，它可以对输入图像运行检测提示，这样我们就可以用自然语言很轻松的告诉它你要识别的物体，比如：左侧第二个女人、腰间有枪的男人、所有文字等等，再配合 SAM2，算是目前遮罩提取的王炸组合。

以上就是 TTPlanetPig 大佬开发的这个智能遮罩抠图的插件 Comfyui_Object_Detect_QWen_VL，非常强，绝对是精品插件，收藏+1。

但是这个我安装的时候折腾了一天，今天才搞定，这不马上就给大家分享我踩过的坑。

二、相关安装

安装这个插件真的是一波三折，这里就给大家分享下遇到的问题以及解决方案

插件地址：https://github.com/TTPlanetPig/Comfyui_Object_Detect_QWen_VL

节点管理器里面无法安装搜到，用命令安装

git clone https://github.com/TTPlanetPig/Comfyui_Object_Detect_QWen_VL.git

模型在运行的时候会自动下载，不过很慢，我建议你提前下载好。
模型地址：https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

官方是推荐用这个BF16版本的，太低的话可能会影响质量

网盘已经提供了这个模型下载，下载后放到路径 models/Qwen下面即可。

将选定的 Qwen 2.5-VL 模型下载到 models/Qwen 中，并返回加载的模型和处理器。您可以选择将模型加载到哪个设备上（例如，如果您有多个 GPU，则为 cuda：1）、检查点的精度（INT4、INT8、BF16、FP16 或 FP32）以及是使用 FlashAttention 还是 SDPA。选择 FP32 精度时，FlashAttention 会自动替换为 SDPA，因为 FlashAttention 不支持它。

以上是正常情况下的安装，现在就是我遇到的各种问题

插件安装了启动失败

我第一次安装的时候，启动后发现无法加载这个插件，提示 transformers错误，我去看了下依赖版本，我的本地transformers也大于要求的4.41.2啊，那怎么还有问题。

解决方案是升级 transformers版本>=4.49即可。

无限下载问题

这个问题折腾了我一天，后来在作者视频评论区看到了解决方案。

问题是你执行的时候，会自动下载模型，而且是无限下载，我本身就提前把模型下载好了，但是运行的时候又会重新去下载。

看了下视频评论区有这么一段话

问题出在attention这里，选择的是 flash_attention_2，我本地没有安装这个加速的，所以出错无限下载。

解决方案有两种，一种是去安装上flash_attention_2，另外一种是其他人说的修改代码，忽略这个atten。

1、安装 flash_attention_2 轮子方案

轮子地址：https://github.com/kingbri1/flash-attention/releases

这里下载你本地适配的版本，核心看 tourch+cuda+python的版本，这里分别有linux和window的版本

我本地是torch 2.7+cuda 128 +python10
所以我最后下载的轮子是：flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp310-cp310-win_amd64.whl

然后把这个文件丢到comfyUI的python目录，执行下命令就安装上了

python.exe -m pip install flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp310-cp310-win_amd64.whl

安装好了这个我还以为可以了，结果又报了一个错误

Triton only support CUDA 10.0 or higher, but got CUDA version: 12.9

提示词我本地的Triton版本太低了，我之前安装的是Triton 3.1版本，以前这个也是要用轮子安装的，现在我看了最新的，好像直接不用轮子了，直接pip安装下即可。

python.exe -m pip uninstall triton
pip install -U "triton-windows<3.4"

分别执行上面这2个命令，就安装上了

2、脚本修改方案

这个我没试过，是一个人在评论区留言的

如果你实在等不及就用我这个吧，替换掉插件目录下的nodes.py文件，增加了模型检测，原文件会启用 FlashAttention2大部分人都会安装失败吧，我是安装失败了，节点增加了自行启用按钮，默认SDPA。我用夸克网盘分享了「nodes.py」，链接：https://pan.quark.cn/s/b70b1d554893 提取码：UYtG

OK，到此就是安装这个插件以及模型的解决方案，反正我这么折腾后可以跑起来了，但是你可能会遇到一个最大的问题，显存不够，这种就没办法了，自己去下载低版本的尝试，或者直接用线上RH平台玩吧。