让SAM2感知一切！图像/视频分割、解释、字幕全到位，一次交互文本Mask齐出

PaperWeekly

于 2025-06-30 20:17:16 发布

阅读量62

点赞数

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247705002&idx=3&sn=5ebef4d6f97353a24c3335bcd809b248&chksm=97b694ffe3c981da088b8335562c096bae2ecc25e0df30fa17934e0ce6c9ad644486ed038dce&scene=126&sessionid=0

论文题目：

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

项目主页：

https://Perceive-Anything.github.io

Arxiv 链接：

https://arxiv.org/abs/2506.05302

作者单位：

香港中文大学、香港大学、香港理工大学、北京大学

指导教师：

港中文 MMLab 李鸿升教授，Google scholar 引用量 6w+

港理工 Chair Professor 张磊教授，Google scholar 引用量 11w+

研究背景

SAM2 拥有强大的分割能力，可以“分割一切物体”，在视频中能够高效追踪任意目标，表现惊艳！

但它也有一个明显的局限：无法提供定位目标的任何语义信息（比如物体是什么、有何功能、处于什么状态等）。

一些最新的 Video LLM 模型尝试结合 VLM 和 SAM2 的强大视觉提示能力，进行视频理解。然而：

这些模型往往无法直接输出分割结果，或需要额外接入 segment 模型，流程复杂；

模型体量通常非常庞大，对计算资源要求高，不适用于轻量化、快速响应的实际场景（如 AR/VR、移动端推理等）。

为了解决上述痛点，我们提出了 PAM（Perceive Anything Model）！它保留了 SAM2 在图像和视频中分割、追踪一切物体的能力，同时可以输出丰富的语义信息。

在图像任务中，PAM 支持一次点击即可输出选中区域的：

类别（Label）
解释（Explain）
精细描述（Caption）

在视频任务中，PAM 同样支持区域理解：

整段描述（Caption）
流式描述（Streaming Caption）——连续事件追踪+动态叙述，首创 region-level streaming video caption！

为了训练这样一个强大的模型，我们构建了一个超大规模高质量训练数据集：150 万个图像区域 + 60 万个视频区域标注

所有数据已经完全开源，助力社区多模态研究发展！

实验结果表明，PAM 仅使用 3B 参数，就在多个图像和视频理解基准上全面刷新或逼近 SOTA，且具备更优的推理效率和显存占用，真正实现性能与轻量的双赢！

Demo

▲ 图片分割+类别+解释+描述

▲ 视频分割+描述

▲ 长视频分割+流式描述

数据构建

为支撑 PAM 的训练，我们精心构建了一个大规模、多层次、高密度的图像与视频语义标注数据集，覆盖分类、解释、描述、时序事件等多个维度：

图像数据：精细三连注释

我们使用 SoM（Set of Masks）方法精准定位目标区域，结合强大的闭源 VLM（如 GPT-4o）生成三类语义信息：

类别（Label）
解释（Explain）
描述（Caption）

每个物体不仅知道“是什么”，还能解释“为什么”和“什么作用”！

视频数据：Storyboard驱动式理解

对每段视频抽取 6 张关键帧，合成为 Storyboard 格式的高分辨率图像；
使用 SoM 高亮目标区域，作为提示引导；
利用闭源 VLM 进行多帧联合推理，生成细节丰富、时间感知强的事件描述。

流式视频数据：连贯事件字幕的首创实践

将长视频切分为多个连续不重叠的事件片段；
每段片段重复 Storyboard 流程；
并在生成描述时递归引入前一段文字内容，让字幕连贯衔接，保证上下文一致性。

模型结构

PAM 引入了 Semantic Perceiver 来连接 SAM2 分割骨架和 LLM，高效地将视觉特征“翻译”成多模态 token，通过 SAM 2 分割骨架 + Semantic Perceiver + LLM 并行解码，在保证轻量高效的前提下，实现了分割 mask 和语义信息并行输出的图像/视频区域级理解！

PAM 只使用了 1.5B/3B 参数的 LLM head，就可以输出非常丰富和鲁棒的语义信息。

实验亮点

能力全面：识别目标、输出解释，详细描述、视频时序事件理解，PAM 在多个任务上都刷新或并列 SOTA
效率突出：仅 3B 参数即可超越 8B、13B 参数规模模型；和相同参数量的 DAM-3B 模型相比，PAM-3B 推理更快，显存更省。
流式字幕首秀：首创了区域级的流式视频字幕能力，不仅能持续描述一个物体的行为，还能在连续事件中保持最高语义一致性，展现了强大的实际应用潜力。

更小体量，带来更强体验。在速度和效果之间，PAM 实现了双赢！

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。