让SAM2感知一切!图像/视频分割、解释、字幕全到位,一次交互文本Mask齐出

论文题目:

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

项目主页:

https://Perceive-Anything.github.io

Arxiv 链接:

https://arxiv.org/abs/2506.05302

作者单位:

香港中文大学、香港大学、香港理工大学、北京大学

指导教师:

港中文 MMLab 李鸿升教授,Google scholar 引用量 6w+

港理工 Chair Professor 张磊教授,Google scholar 引用量 11w+

研究背景

SAM2 拥有强大的分割能力,可以“分割一切物体”,在视频中能够高效追踪任意目标,表现惊艳!

但它也有一个明显的局限:无法提供定位目标的任何语义信息(比如物体是什么、有何功能、处于什么状态等)。

一些最新的 Video LLM 模型尝试结合 VLM 和 SAM2 的强大视觉提示能力,进行视频理解。然而:

这些模型往往无法直接输出分割结果,或需要额外接入 segment 模型,流程复杂;

模型体量通常非常庞大,对计算资源要求高,不适用于轻量化、快速响应的实际场景(如 AR/VR、移动端推理等)。

为了解决上述痛点,我们提出了 PAM(Perceive Anything Model)!它保留了 SAM2 在图像和视频中分割、追踪一切物体的能力,同时可以输出丰富的语义信息。

在图像任务中,PAM 支持一次点击即可输出选中区域的:

  • 类别(Label)

  • 解释(Explain)

  • 精细描述(Caption)

在视频任务中,PAM 同样支持区域理解:

  • 整段描述(Caption)

  • 流式描述(Streaming Caption)——连续事件追踪+动态叙述,首创 region-level streaming video caption!

为了训练这样一个强大的模型,我们构建了一个超大规模高质量训练数据集:150 万个图像区域 + 60 万个视频区域标注

所有数据已经完全开源,助力社区多模态研究发展!

实验结果表明,PAM 仅使用 3B 参数,就在多个图像和视频理解基准上全面刷新或逼近 SOTA,且具备更优的推理效率和显存占用,真正实现性能与轻量的双赢!

Demo

▲ 图片 分割+类别+解释+描述

▲ 视频 分割+描述

▲ 长视频 分割+流式描述

数据构建

为支撑 PAM 的训练,我们精心构建了一个大规模、多层次、高密度的图像与视频语义标注数据集,覆盖分类、解释、描述、时序事件等多个维度:

图像数据:精细三连注释

 我们使用 SoM(Set of Masks)方法精准定位目标区域,结合强大的闭源 VLM(如 GPT-4o)生成三类语义信息:

  • 类别(Label)

  • 解释(Explain)

  • 描述(Caption)

每个物体不仅知道“是什么”,还能解释“为什么”和“什么作用”!

视频数据:Storyboard驱动式理解

  • 对每段视频抽取 6 张关键帧,合成为 Storyboard 格式的高分辨率图像;

  • 使用 SoM 高亮目标区域,作为提示引导;

  • 利用闭源 VLM 进行多帧联合推理,生成细节丰富、时间感知强的事件描述 。

流式视频数据:连贯事件字幕的首创实践

  • 将长视频切分为多个连续不重叠的事件片段;

  • 每段片段重复 Storyboard 流程;

  • 并在生成描述时递归引入前一段文字内容,让字幕连贯衔接,保证上下文一致性。

模型结构

PAM 引入了 Semantic Perceiver 来连接 SAM2 分割骨架和 LLM,高效地将视觉特征“翻译”成多模态 token,通过 SAM 2 分割骨架 + Semantic Perceiver + LLM 并行解码,在保证轻量高效的前提下,实现了分割 mask 和语义信息并行输出的图像/视频区域级理解!

PAM 只使用了 1.5B/3B 参数的 LLM head,就可以输出非常丰富和鲁棒的语义信息。

实验亮点

  • 能力全面:识别目标、输出解释,详细描述、视频时序事件理解,PAM 在多个任务上都刷新或并列 SOTA

  • 效率突出:仅 3B 参数即可超越 8B、13B 参数规模模型;和相同参数量的 DAM-3B 模型相比,PAM-3B 推理更快,显存更省。

  • 流式字幕首秀:首创了区域级的流式视频字幕能力,不仅能持续描述一个物体的行为,还能在连续事件中保持最高语义一致性,展现了强大的实际应用潜力。

更小体量,带来更强体验。在速度和效果之间,PAM 实现了双赢!

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值