【多模态】
PaliGemma: A versatile 3B VLM for transfer
研究机构:google
论文链接:https://arxiv.org/pdf/2407.07726
模型及其说明链接:https://huggingface.co/google/paligemma-3b-pt-224
PaliGemma 是一个基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放视觉-语言模型(VLM)。它经过训练成为一个多功能且知识广泛的基础模型,适用于多种任务迁移。在各种开放世界任务中,PaliGemma 表现出色。我们在将近 40 个多样化的任务上评估了 PaliGemma,包括标准的 VLM 基准测试,以及更专业的任务如遥感和分割。
【医学图像分割】
[NeurlPS 2024 通用分割模型] SegVol: Universal and Interactive Volumetric Medical Image Segmentation
论文链接:https://arxiv.org/pdf/2311