基于局部排名距离(LRD)的生物信息学实验结果分析
在生物信息学领域,聚类技术、DNA 比较以及序列比对是非常重要的研究方向。本文将介绍基于局部排名距离(LRD)的相关实验及其结果,通过与其他方法的对比,展示 LRD 在这些方面的性能表现。
1. 聚类实验
在对 22 种哺乳动物数据集进行聚类时,对比了不同的聚类技术,结果如下表所示:
| 方法 | 错误聚类数 | 准确率(%) |
| — | — | — |
| Dinu 和 Sgarro(2006)提出的方法 | 3/22 | 86.36 |
| Dinu 和 Ionescu(2012a)提出的方法 | 3/22 | 86.36 |
| LRD + k - 元组之和 | 0/22 | 100.00 |
从表中可以看出,LRD + k - 元组之和的方法在聚类 22 种哺乳动物数据集时表现最佳,实现了 100% 的准确率。
在对 27 种哺乳动物线粒体 DNA(mtDNA)序列进行聚类时,基于 18 - 元组的 LRD 层次聚类得到的系统发育树显示,平均链接准则给出了最佳结果。不过,该方法唯一的错误是将猪与食肉目成员聚类在一起,而不是偶蹄目。在 27 种哺乳动物中,有 1 种被错误聚类,准确率为 96.29%。总体而言,基于 LRD 的聚类方法的准确率与类似研究中提出的最先进方法相当或更好。
2. DNA 比较实验
为了展示 LRD 可用于在一组 DNA 字符串中找到最接近的字符串(或最接近的子字符串),进行了 DNA 比较实验。实验使用了 Dinu 和 Ionescu(2012b)提出的遗传算法与 LRD 相结合的