达摩院 ICLR‘25 Spotlight | 细粒度视觉模型如何提升医疗影像诊断能力?

摘要

人工智能在辅助放射科医生提高医学影像解读、诊断效率与准确性方面展现出巨大潜力。然而,一个通用的 AI 模型需要大规模数据和全面的标注,这在开放医疗环境中往往是不现实的。

该工作提出了一种细粒度的视觉语言模型(fVLM),用于对 CT 影像进行解剖级解读。该方法将 CT 影像中的解剖区域与放射学报告中的相应描述进行细粒度匹配,并对每个解剖区域分别进行对比预训练。然而,细粒度对齐面临着相当严重的假阴性样本挑战,这主要是由于大量解剖级健康样本和相似病变异常的存在,导致患者级的配对存在模糊性。

实验结果证明,细粒度的视觉语言模型在开放场景的医学影像解读方面具有巨大潜力。在零样本分类任务中,该方法在 54 项诊断任务上实现了平均 81.3% 的 AUC,比 CLIP 和有监督方法分别提升了 12.9% 和 8.0%。此外,在公开的 CT-RATE 和RadChestCT胸部 CT 基准上,细粒度的视觉语言模型超越了当前最先进的方法。

论文链接:https://openreview.net/pdf?id=nYpPAT4L3D

代码仓库:https://github.com/alibaba-damo-academy/fvlm

图片

现有 CLIP 方法的问题

在医学领域,受困于数据规模较小、医疗专业人员资源不足等问题,通过大规模数据集对专用模型进行监督训练的方法往往难以大规模推广。

近年来,视觉语言模型(VLM)快速崛起,为监督学习范式提供了一种有前途的替代方案。这种方法的基本思想是直接通过医学图像对应的诊断报告,来监督模型训练,无需额外的数据标注过程。

放射学报告是医师诊断过程的高度浓缩记录,记录了至少一名经验丰富的放射科医生对患者所拍医学图像的详细评估。他们可以参考患者病史和临床信息,为图像提供专业的文本解释。

当前的视觉语言模型主要采用全局对比学习策略,每一张图像都与其对应的医师诊断报告结对,用于模型训练。但这种全局对比方法本质上是粗粒度的,忽略了图像上的局部解剖区域和报告中对应的文本段落之间的关系。如果某些解剖区域被对应到了与其不相关的文本上,可能会导致误导性的对齐结果,影响其性能和可解释性。

图片

细粒度的视觉语言模型介绍:

以更细的粒度进行对比学习训练

细粒度的视觉语言模型是一个用于自动化 CT 图像解释的视觉模型。该模型的创新在于其实现了 CT 图像与对应诊断报告之间的细粒度对齐。具体来说,每张 CT 图像对应的诊断报告都会具体描述图像中的一些局部细节。那么,只要在这样的粒度上理解这些关系,就能实现更精确的 CT 图像解释能力。

图片

具体来说,研究团队对图像和报告进行了解剖级的分解和匹配,对成对的图像嵌入和相应解剖结构的文本报告嵌入进行精细对齐。这种显式匹配减轻了全局对比学习带来的错位问题,并增强了视觉语言模型的可解释性。

上图显示了图像局部位置与对应文本段落之间的关系。CLIP 方法无法准确匹配,但细粒度的视觉语言模型可以精确处理它们之间的关系。

匹配具体的 CT 图像位置与诊断报告文本之间的关系时,面临的一个主要挑战是报告对身体器官描述的模糊性。对此,团队为 CT 扫描图像数据集中的 104 个人体区域生成了详细的解剖结构掩码,包括器官、骨骼、肌肉和血管。

随后,将这 104 个区域分为 36 个主要的解剖结构,以同临床报告中描述的颗粒度保持一致。这种分组是必要的,因为 CT 诊断报告通常缺乏病变区域的精确定位。例如,肺部图像可以分割成五个肺叶,而报告可能只提到了 “肺部炎症”,而没有具体说明哪个肺叶受到影响。

这种歧义使研究人员很难从报告中精确提取每个肺叶的相应诊断描述。此外,即使在某些情况下医师报告了具体的病变位置,在其他病人的特定细粒度解剖部位(比如肺部右中叶)发生异常病变的可能性也相当低,导致这些具体的解剖结构的正常样本和异常样本的数量存在压倒性的不平衡。这可能会扭曲训练过程并损害模型的诊断能力。总体而言,解剖分组需要在分析粒度、图像文本一致性和数据平衡之间进行权衡。

图片

为了降低复杂性,首先设计一个提示词,输入一个模型来识别报告中提到的所有解剖结构。值得注意的是,当某段文本缺乏对某些解剖学知识的明确引用,而是提到了它们的解剖学子结构或使用医学术语作为参考时,LLM 可能会因领域知识不足而无法识别这些解剖学知识。

为了减少这些潜在的遗漏,团队采用了互补的字符串匹配策略。例如,包含 “空肠”、“回肠” 或 “十二指肠” 等术语的文本段落会识别为 “小肠”。

接下来,使用 LLM 从两个部分中提取解剖学描述。最后,执行简单的后处理以集成从这两个部分提取的解剖结构级描述。具体来说,对于两节中提到的每个解剖结构,团队将提取的内容与其相应的描述连接起来。在解剖结构仅出现在一个部分中的情况下,会在连接之前用 “null” 字符串补充缺失的部分。如果任一部分均未提及一个解剖结构,将根据既定的临床实践将其描述默认为 “{anatomy} 显示无显著异常”。

图片

减少诊断报告中的假阴性情况

在医疗环境中,不同实例(患者)之间通常存在复杂的语义关系。例如,诊断为正常的患者在语义上是一致的,而具有相同病理的异常样本也表现出高度的语义相似性。

当这些语义相似的样本在对比预训练期间同时出现在同一个小批次中时,它们就构成了假阴性,无意中增加它们的距离可能会降低医疗视觉语言模型的诊断准确性。为了解决这个问题,团队提出了一种双重假阴性减少 (FNR) 方法。

该方法利用 CT 报告的层次结构标注正常样本并修正标签,并采用自训练策略和协同训练框架,动态修正对比学习目标的标签,增强模型多样性。

图片

细粒度的视觉语言模型效果超越SOTA

团队对比了不同预训练方法在零样本异常检测和下游报告生成任务上的性能。对于零样本实验,采用 ROC 曲线下面积(AUC)、平衡准确性(ACC) 、特异性 (Spec)、敏感性(Sens)、精度(Prec)和加权 F1 分数作为指标。对于报告生成任务,同时使用诊断指标和自然语言生成指标进行模型评估。

为了便于计算诊断指标,团队还开发了一种高性能的文本分类器来识别生成的放射学报告中的异常情况。零样本实验数据结果显示,细粒度的视觉语言模型在所有指标上都取得了业界最高水平的表现,且领先幅度相当明显。与 CLIP 和有监督方法相比,其 AUC 分别提升了 12.9% 和 8%。

图片

使用 CT-RATE 和 Rad-ChestCT 基准测试进行对比的结果也类似,细粒度的视觉语言模型在所有指标上取得了优胜。

图片

报告生成任务测试中可以看到类似的结果。

图片

消融研究中,团队研究了以下 3 个模块对 细粒度的视觉语言模型 性能的影响,包括细粒度比对 (FGA) 、正常值之间的假阴性校正 (FNCN) 和共同教学策略 (CoT)。结果显示,FGA 和 FNCN 对性能提升的贡献最大。它们的组合导致 AUC 总体提高 7.8 分,ACC 总体提高 6.0 分。

图片

总体而言,细粒度的视觉语言模型 超越了当前 CT 图像解释领域最先进的方法,包括 CT-CLIP、BIUD、Merlin 等。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值