Sci Adv|使用少量标注病理切片微调基础模型,即可区分肿瘤细胞的分化状态,并推断进展轨迹

小罗碎碎念

这篇发表于《Science Advances》的研究提出了一种基于人工智能的计算框架,能够利用常规采集的苏木精-伊红(H&E)染色全切片图像(WSIs),对肿瘤细胞的分化状态进行分类、推断细胞动态轨迹并量化肿瘤进展。

https://www.science.org/doi/epdf/10.1126/sciadv.adv9466

研究团队通过微调Phikon组织病理学基础模型,构建了一个五分类预测模型(涵盖G1-G4肿瘤分级及正常、坏死等其他病理状态),在肺腺癌(ADC)数据集上实现了较高的分类精度,其中切片水平的加权准确率达0.70,区分低级别与中/高级别肿瘤的AUROC为0.89。

图2. 使用病理图像深度学习模型预测细胞分化状态的示意图。

该模型提取的图像特征可进一步用于推断细胞伪时间,结合细胞的病理空间组织信息,衍生出肿瘤进展速度、香农多样性指数及综合适应度评分等量化指标,这些指标在三个独立ADC队列(TCGA-LUAD、NLST-ADC、SPORE)中均能有效区分患者预后,且与临床风险因素结合后可提升生存风险预测的一致性指数(C-index)。

图1. 肿瘤细胞动态框架概览图。

研究通过整合空间转录组学和批量转录组学数据,深入解析了不同肿瘤进展状态的分子机制。结果显示,快速进展的肿瘤中细胞周期相关通路(如DNA复制、G2/M检查点)显著上调,而缓慢进展的肿瘤则保留了正常肺上皮细胞的特征,尤其是肺泡2型细胞(AT2)的基因签名富集,提示肿瘤细胞分化程度与进展速度的关联。

图3. 全切片H&E图像中的细胞分化状态与伪时序分析。

空间转录组分析进一步识别了不同分化状态下的特征基因(如G2肿瘤区域的LTA4H、VEGFB,正常区域的CX3CL1、MAFF)及免疫细胞组成差异,其中肿瘤区域记忆T细胞浸润增加,而正常区域血管内皮细胞和肺泡成纤维细胞富集,为理解肿瘤微环境异质性提供了新视角。

该研究突破了传统单细胞RNA测序成本高、可及性低的局限,展示了病理图像在大规模肿瘤进展分析中的潜力。其创新点在于将图像特征与伪时间分析结合,实现了对肿瘤空间演化轨迹的量化,且所提出的进展指标在多队列中表现出稳健的预后分层能力。

图4. 全切片图像中的肿瘤进展适应度模型及生存分析

对于医学AI研究领域而言,该框架不仅提供了一种低成本、高效的肿瘤动态分析工具,还为整合多组学数据解析病理图像的生物学意义提供了范例,未来通过扩大训练数据集和优化细胞类型分割,有望进一步提升模型的泛化性和临床应用价值。


交流群

欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。

目前小罗全平台关注量71,000+,交流群总成员1600+,大部分来自国内外顶尖院校/医院,期待您的加入!!

由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群


罗小罗团队

作者是一支以国内外硕博为主的学生团体,覆盖医学AI主流研究领域;团队现有50余人,持续欢迎新的小伙伴加入!

团队官网上传了大量优质的学习资料,包括但不限于每次免费公开课的回放,顶刊复现教程等等!

感兴趣的可以扫码或者点击链接访问作者团队的官网:https://www.lxltx.site/


一、引言

几十年来,肺癌一直是最致命的癌症类型。

2024年,预计美国将有234,580例肺癌和支气管癌病例被诊断出来,每天约有340人死于肺癌。

尽管在诊断和治疗方面取得了进展,但肺癌患者的预后仍然很差,5年生存率不到25%(1)。

改善治疗结果的一个关键挑战是肿瘤异质性,它由空间和功能上不同的细胞群体组成,这些细胞群体导致耐药性、转移潜力、疾病进展,并最终导致治疗失败(2,3)。了解肿瘤的动态进展是推进癌症研究和改善患者治疗结果的基石。


估计肿瘤如何随时间演变对于确定治疗靶点、预测疾病轨迹和个性化治疗策略至关重要。

前沿的单细胞RNA测序(RNA-seq)通过根据细胞的基因表达谱将细胞沿着发育或进化轨迹排序,为模拟细胞分化的动态过程提供了强大的解决方案(4,5)。

这种方法已被应用于揭示肿瘤进展和演变的关键见解,从而更深入地了解细胞分化如何影响肿瘤行为(6-9)。

然而,这些方法存在显著局限性:它们成本高昂,需要专门的设备和专业知识,并且不易广泛获得,尤其是在资源有限的环境中。

为了填补这一空白,作者利用组织病理学图像通过细胞分化状态的转变来研究空间和时间动态,这是组织病理学诊断的一个关键方面,在临床实践中监测肿瘤进展和指导治疗策略方面起着核心作用(10)。

虽然先前的研究已经探索了从各种癌症类型的病理图像中预测细胞分化状态(11-14),但没有一项研究解决了病理图像是否能够表征肿瘤空间演变轨迹,或者这些轨迹如何与肿瘤进展和临床结果相关联的问题。


在本研究中,作者开发了一种计算框架,用于从苏木精和伊红(H&E)染色的全切片肿瘤图像(WSIs)中量化肿瘤进展。

这些图像已广泛应用于肺癌诊断,为肿瘤分级、癌症亚型和肿瘤微环境提供了关键见解(15 - 17)。

人工智能(AI)的最新进展为从组织病理学图像中提取细胞定量信息开辟了道路(18,19)。这些基于AI的计算方法现在可以识别以前人眼无法察觉的模式和特征,从而能够分析肿瘤结构、细胞异质性以及肿瘤与基质成分之间的空间关系,加深对肺癌生物学的理解(16, 20 - 22)。

在AI的支持下,作者训练了一个深度学习模型来预测细胞分化状态。然后,从训练模型中提取编码细胞形态表型的图像衍生特征,以估计细胞伪时间

最后,作者通过整合细胞分化状态、细胞病理空间组织和伪时间,得出一个客观的肿瘤进展评分


作者使用三个独立的肺腺癌(ADC)队列对所提出方法的能力进行了验证:癌症基因组图谱肺腺癌(TCGA - LUAD)、国家肺癌筛查试验(NLST - ADC)和德克萨斯大学肺癌卓越研究特别项目(SPORE)。

通过将匹配的大量RNA测序数据与LUAD和SPORE队列中的图像衍生分化指标相结合,分层进一步指导了对与肿瘤进展相关的生物途径和基因的探索,为这些指标与临床结果之间观察到的关联提供了合理的解释。

此外,作者还将提出的方法与空间转录组数据相结合,以探索不同细胞分化状态之间的基因特征和免疫细胞成分(图1)。

image-20250730084223103


二、结果

2-1:细胞分化状态分类模型的开发

细胞分化状态是组织病理学诊断的一个关键方面,在临床实践中监测肿瘤进展和指导治疗策略方面发挥着核心作用(10)。

肿瘤分级反映了细胞向正常细胞分化的程度,通常分为三个级别:

  • 低级别肿瘤:高分化(G1);
  • 中级:中分化(G2);
  • 高级别肿瘤:低分化(G3)和未分化(G4)(23)

低级别肿瘤与天然肺组织非常相似,往往生长和扩散缓慢,并保持一定程度的结构组织。

相比之下,高级别肿瘤更具侵袭性,表现出结构组织的大量缺失,与正常肺组织几乎没有相似之处(24)。


细胞状态分类的一个关键方面是开发一个强大的五类预测模型,包括四个既定的肿瘤分级类别(G1至G4)和一个额外的“其他”类别,其中包括正常、坏死和其他病理状况。

为了实现这一特定目标,作者使用来自NLST的高质量注释数据集构建了一个基于深度学习的模型(25),该数据集包括381张肺ADC的WSIs(图2A)。

image-20250730084414135

作者使用从WSIs上注释的感兴趣区域(ROIs)中随机提取的图像块对Phikon组织病理学基础模型进行了微调(26)(图2B)。

image-20250730084435748

数据集和模型训练过程的详细信息在材料与方法中提供。


2-2:细胞分化状态预测准确性的验证

在NLST数据集中总共标注了440个感兴趣区域(ROI),随后将其分为训练组(n=395)\left( {n = {395}}\right)(n=395)和测试组(n=45)\left( {n = {45}}\right)(n=45)

该模型在从训练ROI中随机提取的1976个图像块上进行训练,并使用来自独立测试ROI的2250个图像块评估模型性能(图2C)。

image-20250730084631112

由于作者模型中G4肿瘤数量有限,作者按照美国国立癌症研究所的指导,将G1分类为低级别,G2分类为中级别,G3和G4分类为高级别肿瘤。

作者比较了五个预训练基础模型的性能(表1),Phikon模型的表现优于Phikon-V2(27)和其他基于卷积神经网络的模型(28)。

image-20250730084652023

结果显示,Phikon模型所有类别在图像块级别的分类加权准确率为0.61(图2D和表S1)。

image-20250730084731130


为了评估作者的模型在全切片图像(WSI)上的性能,作者汇总了所有提取的肿瘤图像块的级别,并为每张切片指定四舍五入后的平均级别。

在一个包含148张WSI的队列中,该模型的加权准确率达到0.70,在区分低级别与中/高级别肿瘤时,受试者工作特征曲线下面积(AUROC)为0.89,在区分低/中级别与高级别肿瘤时,AUROC为0.83(图2,E和F)。

image-20250730084814957

大多数差异源于未分化肿瘤(G4)训练样本数量有限,以及中度(G2)和低度(G3)分化肿瘤的错误分类。然而,由于这两类之间的界限细微,G2和G3的分类本身具有挑战性。

此外,ROI的手动标注也可能因病理学家的主观决策而引入变异性。


2-3:使用细胞分化状态模型对全切片图像进行伪时间分析

预训练的图像块级肿瘤分级模型能够应用于全切片图像级别以进行肺腺癌分析。

全切片图像处理的一个示例见图3A。

image-20250730084915647

预训练模型逐像素快速扫描掩码组织区域,提供显示全切片图像上分化状态分布的空间化结果。在此扫描过程中,提取并保存图像衍生特征以用于下游定量分析。

类似于单细胞RNA测序中的基因表达值,图像衍生特征捕获可用于估计图像块伪时间的细胞形态表型。作者使用提取的图像特征进行伪时间分析,以在空间上研究肿瘤细胞分化状态及其轨迹(图3A;材料与方法中有更多详细信息)。

基于图像的伪时间分析根据细胞形态异质性对图像块进行排序,从而能够在空间上探索肿瘤演变。


作者对预测的细胞分化状态进行了详细分析,并由作者的专业病理学家确认了标注的感兴趣区域(ROI)。

图3B展示了两个全切片苏木精-伊红(H&E)图像示例:一个高分化(G1)肿瘤和一个未分化(G4)肿瘤。

image-20250730085018754

在这两种情况下,预测状态与标注的ROI精确匹配。伪时间分析进一步显示,与正常区域相比,肿瘤区域的时间点更靠后,这反映了肿瘤细胞分化和进展的更高级阶段,与状态预测一致

在G4示例中,尽管“正常”和“坏死”区域都被归类为其他,但伪时间分析仍然有效地分辨出了坏死区域,该区域与正常和肿瘤区域相比呈现出最晚的细胞阶段。

这些发现表明,作者的模型成功地使预测状态与标注的ROI对齐。此外,基于图像特征的伪时间分析为细胞轨迹提供了有价值的见解,进一步加深了作者对肿瘤进展的理解。


2-4:整合肿瘤空间性和伪时间的预后图像生物标志物

经过微调的细胞分化状态分类模型能够使用H&E图像对肿瘤进展进行客观量化。

为了进一步分析肿瘤动态,作者提出了一个综合适应度评分来量化肿瘤进展水平(图4A)。

image-20250730085112041

这个适应度评分被定义为两个成分的乘积:

  1. 进展速度(S),它基于伪时间和图像块的空间组织反映肿瘤生长的生物学侵袭性;
  2. 香农多样性(I),它基于细胞形态多样性代表肿瘤异质性。

数学模型和计算的更多细节可在材料与方法中找到。


作者将模型应用于三个独立的扩散加权成像(ADC)数据集[国家肺癌筛查试验(NLST)、德克萨斯大学西南医学中心(UTSW)-SPORE和癌症基因组图谱-肺腺癌(TCGA-LUAD)],以检验导出分数与患者总生存期之间的关联。

表2总结了每个数据集中纳入患者的详细临床特征。

image-20250730085209817

根据进展速度、多样性指数和适应度评分的中位数将患者分为两组:“缓慢”(≤中位数)和“快速”(>中位数)。

作者在三个数据集中的两个患者分层组之间进行了对数秩检验:NLST(适应度:P=0.01P = {0.01}P=0.01;速度:P=0.04P = {0.04}P=0.04;多样性:P=0.05P = {0.05}P=0.05),肺腺癌(LUAD)(适应度:P=0.02P = {0.02}P=0.02;速度:P=0.02P = {0.02}P=0.02;多样性:P=0.05P = {0.05}P=0.05),以及SPORE(适应度:P=0.03P = {0.03}P=0.03;速度:P=0.04P = {0.04}P=0.04;多样性:P=0.08P = {0.08}P=0.08)(图4,B至J)。

在所有三个数据集中,缓慢进展组的生存期均优于快速进展组。适应度和速度评分在所有三个数据集中对患者分层都取得了显著成功,而肿瘤香农多样性在NLST和LUAD数据集中均具有显著性。


在使用Cox比例风险(Cox-PH)回归模型进行的单变量总生存期分析中,适应度评分在NLST (P=0.05)\left( {P = {0.05}}\right)(P=0.05) 和SPORE (P=0.01)\left( {P = {0.01}}\right)(P=0.01) 数据集中是危险风险的显著独立预测因子,速度在SPORE (P=0.02)\left( {P = {0.02}}\right)(P=0.02) 数据集中也具有重要意义(图4,B至J)。

在多变量Cox-PH分析中将图像衍生分数与临床风险因素(如癌症分期、性别和年龄)相结合,也改善了NLST(从0.67提高到0.7)和SPORE(从0.72提高到0.82)数据集中更高一致性指数(C指数)的风险预测结果。

在LUAD数据集中,添加图像特征后C指数保持在0.62,没有改善。多变量Cox-PH分析的详细输出见表S2至S4。

随后,作者研究了三个数据集的进展速度与香农多样性之间的相关性。观察到微弱的正相关,这表明侵袭性肿瘤进展可能与肿瘤克隆型增加且分布更均匀有关,因为香农指数反映了根据图像特征计算的肿瘤形态异质性(图4,K\mathrm{K}KM\mathrm{M}M)。

仅使用速度和多样性评分,患者被进一步分为三个进展组:极慢(速度和香农指数均≤中位数)、极快(速度和香农指数均>中位数)和中度(其他所有情况)。这种联合分层方法进一步改善了患者在三个数据集上分为慢、中、快进展组的区分(图4,N至P)。


2-5:使用肿瘤进展量化进行患者分层的稳健性

为了进一步验证作者的框架,作者使用Louvain聚类结果重复了患者分层分析(图S1)(29)。

在NLST队列中,从Louvain聚类得出的所有三个分层指标都能可靠地区分患者组,在SPORE数据集中,香农多样性同样能对临床结果进行分层。

总体而言,在Louvain分析中,更高的肿瘤进展仍然始终与较差的生存率相关。


然后,作者评估了主成分(PC)数量如何影响用于患者分层的伪时间和香农多样性指标。

在PC数量为10、20、30、40和50的情况下,所有三个指标都呈现出正相关。此外,较慢的肿瘤进展量化始终预示着更好的生存率(图4、表S5以及图S2至S4)。

值得注意的是,在所有三个数据集中,适应性评分被证明比速度或香农多样性更稳健,对PC数量的敏感性最小(详细信息见材料与方法)。


2-6:与肿瘤进展相关基因的分子功能

作者下载了SPORE和LUAD数据集的匹配转录组数据,并使用基于基因表达与香农多样性之间的斯皮尔曼相关性排名的基因进行基因集富集分析(GSEA),利用来自REACTOME通路数据库(30)的通路注释、分子特征数据库(MSigDB)通路数据库(31)中的细胞类型特征(C8)基因集。

在快速进展组中,上调的通路包括与细胞周期调控相关的通路,如合成期、DNA复制(图5A,SPORE数据集)和G2M{\mathrm{G}}_{2}\mathrm{M}G2M检查点(图S5,LUAD数据集)。这些发现表明这些肿瘤中细胞分裂和增殖增加,这与快速进展组的分类一致。

image-20250730085443452

相比之下,缓慢进展组显示出参与表面活性剂代谢的基因表达水平较高,反映出正常肺上皮细胞更具分化特征的细胞状态,这与其作为缓慢进展肿瘤的分类相符(图5A和图S5A)。

支持这一观点的是,与缓慢进展相关的基因在2型肺泡细胞(AT2)特征中也显著富集(图5B和图S5B)(28),2型肺泡细胞是已知的负责维持肺气体交换功能、表面活性剂产生、肺泡修复和再生以及先天免疫调节的细胞类型(32 - 34)。

GSEA分析还鉴定出了重要基因,包括表面活性剂蛋白家族成员(SFTPA、SFTPB和SFTPC)以及B细胞表面表达的CD81(35),它们参与抗肿瘤活性。使用SPORE和TCGA数据集进行的分析表明,CXCL17在巨噬细胞中具有抗炎活性(36),并且是肺腺癌(ADC)的一个预后标志物(37)。

尽管CXCL17在肺中普遍表达,但它既有促肿瘤作用又有抗肿瘤作用(38,39),其潜在机制仍知之甚少。


为了进一步研究这种关系,作者计算了一个AT2评分,作为GSEA结果中前沿基因的平均表达。

在两个数据集中均观察到AT2评分与推导的速度、多样性和适应度评分之间呈负相关。

值得注意的是,与快速进展患者相比,缓慢进展患者表现出更高的AT2细胞类型基因特征表达(图5,C和D,以及图S5,C和D)。

这表明正常细胞功能增强,也可能表明肿瘤细胞保留了AT2细胞的特征且分化良好(低级别肿瘤),其生长速度通常比低分化(高级别肿瘤)更慢且侵袭性更小。


2-7:将细胞分化模型与空间转录组数据整合

为了在空间转录组数据上评估作者的模型,作者将其应用于从10X Genomics下载的Xenium 5K ADC数据集,预测整个全切片图像(WSI)上的细胞分化状态(图6A)。

image-20250730085547669

通过对斑点水平的图谱求平均值来计算斑块水平的基因表达,并在分化状态之间鉴定出高变异性基因。

图6B突出显示了G2肿瘤区域(GLB1、SEPTIN9、LTA4H、PRR13和VEGFB)和正常区域(CX3CL1、APP、MAFF、ZFAND5和CAVIN2)的前五个标志物。

值得注意的是,LTA4H在肿瘤组织与正常组织中上调,反映了其在炎症信号传导和细胞增殖中的作用(40,41)。PRR13和VEGFB均与ADC患者的不良生存相关(42, 43),并且VEGFB进一步促进转移,使其成为一个潜在的治疗靶点(43 - 45)。

相比之下,CX3CL1 - 一种具有取决于环境的促肿瘤和抗肿瘤作用的趋化因子 - 可能调节自然杀伤细胞浸润(46),而MAFF通过抑制ADC细胞增殖和阻断细胞周期进程起到肿瘤抑制作用(47)。


接下来,作者将 Leiden 聚类方法应用于空间转录组表达数据,并根据高变基因注释细胞类型,从而能够评估不同细胞分化状态下的免疫细胞组成(图6,C至E)。

image-20250730085633903

然后,作者对每张玻片的细胞成分进行定量,并比较预测分级之间的组成差异(图6,F和G,以及图S6)。正如预期的那样,肿瘤区域以上皮肿瘤细胞为主(图6F)。

与相邻的正常组织相比,这些区域还募集了更多经CD44和CXCR4表达鉴定的记忆 T\mathrm{T}T 细胞浸润(图6,E至G)。

相反,以DHCR24、SDC4、TSPAN3、ATP1A1和TPPP3为标记的血管内皮细胞和肺泡成纤维细胞在正常区域显著富集(图6,H\mathrm{H}HI\mathrm{I}I),这往往与更好的总生存率相关(48)。


三、材料与方法

3-1:数据集

NLST-ADC数据集

用于支持细胞分化状态分类的肺ADC病理图像数据集取自NLST-ADC。

来自NLST的公开可用数据集(https://biometry.nci.nih.gov/cdas/nlst/)包含318  H{318}\mathrm{\;H}318H张苏木精-伊红(H&E)染色的病理图像(×40\times {40}×40倍放大)以及148名患者的临床数据。

多个病理切片可能对应于一名患者。为了加强作者的分析,病理学家使用I-viewer软件标注并确认了总共440个涵盖肿瘤、正常、坏死和其他病理状况的感兴趣区域(ROI)(50)。


TCGA-LUAD数据集

临床数据从TCGA数据门户下载。通过期望最大化(RSEM)算法处理的来自TCGA肺腺癌(LUAD)的基因标准化RNA测序数据从Firebrowse(http://firebrowse.org/)(doi:10.7908/C19P30S6)下载。

所有成像数据可在国家癌症研究所成像数据共享库(https://datacommons.cancer.gov/repository/imaging-data-commons)获取。

更多信息可在TCGA网站(https://cancer.gov/ccg/research/genome-sequencing/tcga)找到。


UTSW-SPORE数据集

肺癌数据集中的SPORE包括111名肺腺癌(ADC)患者(51)。

组织样本通过手术切除从提供书面知情同意书的患者获取。所有肿瘤组织切片均用福尔马林固定、石蜡包埋,并以×20\times {20}×20×40\times {40}×40倍放大进行扫描。该数据集的微阵列数据从基因表达综合数据库(GSE42127)(52)检索。

使用“illuminaHumanv3.db (1.26.0)”R包将该数据集中的Illumina探针ID转换为基因符号。


3-2:从组织病理学图像进行细胞分化状态分类

作者整合了Phikon模型(26),随后是具有128个节点和5个节点(类别数)的顺序前馈层,以预测斑块水平的细胞分化状态(图2B)。

Phikon模型是一个在4000万个TCGA组织病理学斑块上预训练的基础模型。为了使其适用于作者的特定任务,作者使用从注释的感兴趣区域(ROI)中提取的肿瘤分级特异性斑块对模型进行了微调。

数据集被分为395个ROI用于训练和45个ROI用于测试。除了四种传统的分级(G1到G4)分类外,作者还将其他细胞状态作为第五类,涵盖正常和坏死病理状况。

斑块以224×224{224} \times {224}224×224像素的分辨率从ROI中随机提取,以匹配Phikon和Phikon-V2模型的输入大小要求。对于最终数据集,从每个训练ROI中提取5个斑块,从每个测试ROI中提取50个斑块(图2C)。

在测试Resnet模型(28)的性能时,在500×500{500} \times {500}500×500处提取斑块。最终模型训练100个轮次,批量大小为20。应用交叉熵损失作为目标函数,通过Adam优化器以0.001的逐步学习率将其最小化。


为了减轻细胞分化状态间ROI分布不均衡导致的过拟合,作者应用了从训练集中的逆类频率导出的交叉熵权重:G1、G2、G3、G4和其他类别的权重分别为0.0607、0.0184、0.0293、0.8695和0.0221。

在与未加权版本比较后,作者选择了这个加权模型,未加权版本无法预测任何G4肿瘤且总体准确率较低(图S7)。

Python中的“scikit-image”库(v0.22.0)用于斑块提取,而“torch”(v2.2.1)和“torchvision”(v0.17.1)用于模型训练。

Phikon模型使用Python中“transformers”包(v4.38.2)的“ViTModel”实现。


3-3:从组织病理学图像中提取全切片图像(WSI)特征

在训练了斑块水平的预测模型后,作者将其应用于扫描WSI,处理以400像素间隔提取的所有单个斑块。

对于每个斑块,从微调模型中提取768个Phikon特征,以预测特定斑块区域的细胞分化状态。这些特征随后用于在WSI水平推断伪时间(图3A)。

Phikon特征提取的详细信息和脚本可在https://huggingface.co/owkin/phikon获取。


3-4:从提取的WSI组织病理学图像特征中推断伪时间

类似于从单细胞RNA测序的基因表达推断伪时间,作者使用从微调模型中提取的图像斑块特征推断组织病理学伪时间。

首先,使用主成分分析降低特征维度。作者使用四个邻居和前20PCs{20}\mathrm{{PCs}}20PCs个主成分计算最近邻距离矩阵,捕获所有苏木精-伊红(H&E)图像中≥63%\geq {63}\%63%的方差。然后使用Leiden算法以分辨率1进行斑块聚类,这是一种计算效率高的方法,可确保所有斑块连接良好,以便进行最佳的下游轨迹推断(29)。

为了基于斑块分区构建拓扑图,作者使用基于分区的图抽象(53)。随机选择一个正常斑块作为轨迹根节点。

随后,应用扩散伪时间(54)方法估计伪时间值,捕获组织学空间中动态的肿瘤细胞进展。所有分析均使用Python包“Scanpy”(v1.9.8)(55)进行。


3-5:整合空间数据和伪时间以进行肿瘤进展量化

肿瘤进展的量化描述了区域内肿瘤的扩张速度,整合了WSI上的伪时间和空间组织。

肿瘤进展适应度得分计算如下
Fitness=S∗I(1) \text{Fitness} = S * I \tag{1} Fitness=SI(1)

S=log⁡(∑i,jnd[i,j]∣ti−tj∣∗1n)(2) S = \log \left( {\mathop{\sum }\limits_{{i,j}}^{n}\frac{d\left\lbrack {i,j}\right\rbrack }{\left| {t}_{i} - {t}_{j}\right| } * \frac{1}{n}}\right) \tag{2} S=log(i,jntitjd[i,j]n1)(2)

I=−∑in[pi∗log⁡(pi)](3) I = - \mathop{\sum }\limits_{i}^{n}\left\lbrack {{p}_{i} * \log \left( {p}_{i}\right) }\right\rbrack \tag{3} I=in[pilog(pi)](3)

其中,SSS代表莱顿聚类中平均成对肿瘤进展速度,ttt表示每个聚类的平均伪时间,ddd是聚类 iiijjj 质心之间的欧几里得距离。因此,较小的 SSS 值表明肿瘤进展较慢,其特征是在单位伪时间内 H&E\mathrm{H}\& \mathrm{E}H&E 图像上肿瘤的空间扩展区域有限。

此外,较大的 SSS 值代表更具侵袭性的细胞生长和扩展活动。III 是基于莱顿聚类计算的香农指数,反映了从细胞形态异质性推断出的肿瘤克隆多样性。

低香农指数表明某些病理细胞克隆型占主导地位,对应于相对更纯净的肿瘤微环境,提示进展缓慢,细胞状态转变或细胞生长活动相对不活跃。相反,较高的香农指数表明克隆型更独特且细胞活动更活跃。

综合适应度评分整合了肿瘤进展速度(S)和克隆多样性(I),以全面衡量 H&E\mathrm{H}\& \mathrm{E}H&E 图像中的肿瘤动态,同时捕捉多样性和均匀细胞成分的存在情况。


3-6:患者选择与生存分析

作者对三个肺腺癌队列进行了生存分析,以研究作者的肿瘤进展量化指标与临床结果之间的关联。

从TCGA和NLST数据集中提取的少于10,000个切片的苏木精 - 伊红(H&E)图像以及从SPORE数据集中提取的少于3500个切片的图像被排除在队列分析之外。

根据适应度评分、速度(S)或香农多样性(I)的中位数将患者分为两组。值小于或等于中位数的患者被分类为肿瘤进展缓慢组。

相反,值高于中位数的患者被归入快速进展组。使用Kaplan - Meier(KM)曲线和对数秩检验来评估缓慢组和快速组之间的生存差异。此外,应用Cox - PH模型进行单变量和多变量生存回归分析。

C指数用于衡量生存模型的预后能力。所有分析均使用Python包“lifelines”(v0.28.0)进行。


3-7:基因集富集分析

来自REACTOME通路数据库(30)和MSigDB(31)的标志性基因集(H)和细胞类型特征基因集(C8)用于基因集富集分析(GSEA)。

基因根据其RNA表达与香农指数之间的斯皮尔曼相关性进行排序。相关性使用Python包“spicy.stats”计算。GSEA使用R包“fgsea”(v1.28.0)进行。


3-8:空间转录组分析

使用Python包“Squidpy”(v1.6.5)(56)和Scanpy(v.19.8)(55)处理Xenium ADC 5K数据集。

首先,作者使用由前20个主成分定义的空间中的四个最近邻计算最近邻距离矩阵。然后通过莱顿算法以0.1的分辨率对细胞进行聚类,并通过跨聚类的Wilcoxon秩和检验识别高度可变基因。

最后,通过将GPTCelltype提示应用于为每个聚类发现的标记基因来进行细胞类型注释(57)。下面给出使用的确切提示。

“使用以下标记物识别人类肺肿瘤组织的细胞类型。每行识别一种细胞类型。仅提供细胞类型名称。\n标记基因列表”


3-9:统计分析

AT2细胞类型的基因特征评分(AT2评分)是GSEA结果中前沿基因的平均表达。使用Kruskal - Wallis检验比较患者分层组之间的基因特征评分。所有统计分析均使用“ggplot2(3.5.0)”R包进行。


结束语

本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关科研服务,欢迎扫码前往我们团队的主页!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值