关于Segment Anything（SAM）模型和其医学应用

wangzixinxinxin

已于 2024-10-09 16:16:37 修改

阅读量1.6k

点赞数 16

CC 4.0 BY-SA版权

文章标签：人工智能计算机视觉深度学习

于 2024-10-09 16:16:15 首次发布

本文链接：https://blog.csdn.net/Wzxdecsdn/article/details/142780247

0 关于SAM

SAM 论文：arxiv.org/pdf/2304.02643

SAM demo：Segment Anything | Meta AI (segment-anything.com)

SAM 综述：A Comprehensive Survey on Segment Anything Model for Vision and Beyond

领域SAM：

医学：MedSAM、MedSAM2

视频：SAM2

遥感：GeoSAM

1 SAM简介

论文摘要：我们介绍了“Segment Anything”（SA）项目：这是一个关于图像分割的新任务、模型和数据集。通过在数据收集循环中使用我们高效的模型，我们构建了迄今为止最大的分割数据集，包含超过10亿个mask，基于1100万张经过许可且尊重隐私的图像。该模型设计并训练为可响应提示，因此能够在新的图像分布和任务上进行零样本迁移。我们在多个任务上评估了其能力，发现它的零样本表现令人印象深刻，通常可以与之前完全监督的结果相媲美，甚至超过它们。

简单来说，SAM构建了一个巨大的mask数据集（具体构建方法后续会介绍），设计了一种巧妙的结构训练模型可以在稀疏提示：点、框、文本，密集提示：mask上达到和监督模型媲美的效果，另外，可以有效地迁移到数据分布不同的推理集上

1.1 模型结构

模型包括一个视觉编码器（MAE预训练的ViT-H）、一个提示编码器（综合四种不同的提示）、一个mask解码器。

1.1.1 视觉编码器

图像编码器可以是输出图像嵌入的任意网络。为实现可扩展性和利用强大的预训练，采用了MAE预训练的Vision Transformer (ViT)，并进行了最小的调整以处理高分辨率输入。具体使用ViT-H/16模型，结合14×14窗口注意力机制和四个全局注意力块。图像编码器的输出是输入图像的16倍下采样嵌入，并以1024×1024的输入分辨率生成64×64的嵌入。随后，通过1×1和3×3的卷积减少通道数至256，并进行层归一化。