禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者!
文章目录
介绍
单细胞RNA测序(scRNA-seq)技术的快速发展为研究细胞异质性、发育轨迹和疾病机制提供了前所未有的分辨率。然而,整合来自不同实验批次或研究的数据集时,批次效应(batch effect)会引入技术变异,掩盖真实的生物学差异。针对这一问题,目前主流的三种整合方法——Harmony、fastMNN和SCTransform——各有优势和适用场景。
本文以一篇乳腺癌单细胞研究(A comprehensive single-cell breast tumor atlas…)的23万细胞数据集为例,系统比较了这三种方法的原理、内存消耗、计算效率和整合效果。该数据集整合了8项独立研究,存在显著的批次差异,是检验整合方法的理想案例。
Harmony通过PCA空间的软聚类和线性变换实现快速批次校正,内存占用最低(推荐64GB),适合超大规模数据。