目录
0 关于SAM
SAM 论文:arxiv.org/pdf/2304.02643
SAM demo:Segment Anything | Meta AI (segment-anything.com)
SAM 综述:A Comprehensive Survey on Segment Anything Model for Vision and Beyond
领域SAM:
视频:SAM2
遥感:GeoSAM
1 SAM简介
论文摘要:我们介绍了“Segment Anything”(SA)项目:这是一个关于图像分割的新任务、模型和数据集。通过在数据收集循环中使用我们高效的模型,我们构建了迄今为止最大的分割数据集,包含超过10亿个mask,基于1100万张经过许可且尊重隐私的图像。该模型设计并训练为可响应提示,因此能够在新的图像分布和任务上进行零样本迁移。我们在多个任务上评估了其能力,发现它的零样本表现令人印象深刻,通常可以与之前完全监督的结果相媲美,甚至超过它们。
简单来说,SAM构建了一个巨大的mask数据集(具体构建方法后续会介绍),设计了一种巧妙的结构训练模型可以在稀疏提示:点、框、文本,密集提示:mask上达到和监督模型媲美的效果,另外,可以有效地迁移到数据分布不同的推理集上
1.1 模型结构

模型包括一个视觉编码器(MAE预训练的ViT-H)、一个提示编码器(综合四种不同的提示)、一个mask解码器。
1.1.1 视觉编码器
图像编码器可以是输出图像嵌入的任意网络。为实现可扩展性和利用强大的预训练,采用了MAE预训练的Vision Transformer (ViT),并进行了最小的调整以处理高分辨率输入。具体使用ViT-H/16模型,结合14×14窗口注意力机制和四个全局注意力块。图像编码器的输出是输入图像的16倍下采样嵌入,并以1024×1024的输入分辨率生成64×64的嵌入。随后,通过1×1和3×3的卷积减少通道数至256,并进行层归一化。
1.1.2 提示编码器
提示编码器分为两个大类,稀疏提示(点、框、文本)和密集提示(mask):
1)稀疏提示:
点:在图像上用户提供的一些前景或背景点,模型会使用位置编码(Positional Encoding)来表示这些点的位置信息。同时,模型会为每种提示类型(如前景点和背景点)学习不同的嵌入