我们推出了分割一切模型2(SAM 2),这是一个旨在解决图像和视频中可提示的视觉分割问题的基础模型。我们构建了一个数据引擎,通过用户交互来改进模型和数据,从而收集到了迄今为止最大的视频分割数据集。我们的模型采用了简单的Transformer架构,并配备了流式内存,可实现实时视频处理。在我们的数据上训练的SAM 2在广泛的任务中表现出强大的性能。在视频分割方面,与先前的方法相比,我们观察到其精度更高,且所需的交互次数减少了三倍。在图像分割方面,我们的模型比分割一切模型(SAM)精度更高,速度快六倍。我们相信,我们的数据、模型以及见解将成为视频分割及相关感知任务的一个重要里程碑。我们将发布我们的主模型、数据集,以及用于模型训练的代码和演示。
1 Introduction
“分割一切”(SA)引入了一个用于图像中可提示分割的基础模型(基里洛夫等人,2023)。然而,图像仅仅是现实世界的一个静态快照,在现实世界中,视觉片段可能会表现出复杂的运动,并且随着多媒体内容的快速增长,现在很大一部分内容都记录了时间维度的信息,尤其是在视频数据中。增强现实/虚拟现实、机器人技术、自动驾驶汽车以及视频编辑等领域的许多重要应用,除了图像级别的分割之外,还需要进行时间定位。我们认为,一个通用的视觉分割系统应该既适用于图像,也适用于视频。
视频分割旨在确定实体在时空上的范围,这带来了超越图像分割的独特挑战。由于运动、变形、遮挡、光照变化以及其他因素,实体的外观可能会发生显著变化。由于相机运动、模糊以及较低的分辨率,视频的质量通常比图像要低。此外,高效处理大量帧也是一个关键挑战。虽然“分割一切”(SA)成功解决了图像分割的问题,但现有的视频分割模型和数据集在实现“分割视频中的一切”这一能力方面仍存在不足。
我们推出了分割一切模型2(SAM 2),这是一个适用于视频和图像分割的统一模型(我们将图像视为单帧视频)。我们的工作包括一项任务、一个模型和一个数据集(见图1)。
我们专注于可提示视觉分割(PVS)任务,该任务将图像分割推广到视频领域。这项任务将视频任意一帧上的点、框或掩码作为输入,以定义一个感兴趣的分割区域,进而预测其时空掩码(即“掩码小块”)。一旦预测出掩码小块,可通过在其他帧中提供提示来对其进行迭代优化。
我们的模型(第4节)可生成单张图像以及跨视频帧的感兴趣对象的分割掩码。SAM 2配备了一种存储器,该存储器可存储有关对象和先前交互的信息,这使得它能够在整个视频中生成掩码小块预测,并且还能基于先前观察到的帧中对象的存储记忆上下文有效地校正这些预测。我们的流式架构是将SAM自然推广到视频领域的一种方式,它一次处理一个视频帧,并配备了一个记忆注意力模块,用于关注目标对象的先前记忆。当应用于图像时,存储器为空,并且该模型的表现与SAM类似。
我们使用一个数据引擎(第5节),通过让我们的模型与注释员协同工作来生成训练数据,以交互式地注释新的、具有挑战性的数据。与大多