NGS技术的广泛应用已经在肿瘤研究和临床实践中展现出革命性的影响。NGS测序作为一种高通量、高灵敏度的基因组分析工具,能够深入挖掘肿瘤细胞的遗传变异,为个体化治疗提供了强有力的支持。而在NGS测序中,测序深度是一个至关重要的指标,它代表了对基因组的覆盖程度和数据的可靠性。测序深度的高低直接关系到NGS检测结果的准确性。
早期的NGS检测包括现在很多的WGS检测,往往深度只要30X,这一方面是出于经济性的考虑,另一方面也是因为WGS检测很多都是进行胚系检测,针对预期频率50%的变异信号,30X已经足够饱和了(当然也有些专注于结构变异检测的需求,平均深度都不到1X)。
但是随着在肿瘤领域,随着肿瘤异质性,亚克隆、组织切片/突变入血率等等因素,往往目标检测线不会这么高,预期检测线会到达5%、3%、1%,甚至于在ctDNA,MRD等检测中,会出现千分之乃至万分之的水平。所以在这个时候,出于经济性的考虑,我们很难去考虑一些饱和性的方案。所以需要确定一个理想的测序深度,也就是能完成对阳性位点和阴性位点进行区分的最低深度。
针对胚系变异区段进行产品开发的时候,整个事情都会变得简单一些,因为这个时候,我们不需要去考虑整个检测体系的错误率带来的影响。因为即使在30X的深度下,胚系阳性信号和测序错误带来的影响就已经存在非常大的间隔。如下图:
测序错误所出现的reads支持数目(横坐标)最多也基本只有2条reads支持。而针对一个杂合突变(50%频率)的预期检测reads数目最少都会达到5条以上,在经济不敏感的情况下,我们可以直接选择测序深度30X,至于阳性判断值,随便选择一个3~5之间的数据问题都不会太大。因为现在都是数据测序数据完全饱和的情况。
但是显然,当我们的预期检测限(LoD)降低的时候,那么一个真阳性变异信号被检测到的reads数目分布(上图绿色部分)会向左偏移,当检测线降低到一定水平时,那么真阳性(绿色)和测序错误导致的假阳性(粉色)分布会出现交集,如果我们关注的重点如果从胚系(50%)降低到1%的时候,我们会发现即使深度达到300X,阳性信号和错误信号也难以进行区分。
那么这个时候我们就需要提高我们的测序深度,从而使阳性信号分布和错误信号分布产生可以识别的差别来满足我们的性能需求。
这时候,我们可以假设错误信号和阳性变异都满足一个二项分布,我们就可以计算获得不同测序深度下,以预期检测线LoD=1%、测序错误error=0.2%为例,阳性信号和错误信号的理论分布如下:
可以看到随着深度的增加,阳性信号分布和错误信号分布的交集区域(无法有效分辨真假)会逐步减少直至完全区分。这时候,我们就可以根据我们的性能需求,确定我们所需要的最低测序深度了。
当然如果是靶向测序,我们还需要注意区分,位点深度和样本平均深度的区别。