当生物信息遇见机器学习

本文探讨了生物信息学中的数据类型,特别是高通量基因型数据及其关联分析,如GWAS。机器学习在处理这些数据时面临过拟合等问题。介绍了PRS作为评价模型,并讨论了特征选择的策略,如神经网络模型和线性模型的变量筛选方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随着遗传学、育种学的不断发展和人类基因组计划和分子生物学的日益发展,生物学数据在短短的几十年里得到了爆发式地增长。比如生物信息学里面的:回归分析、随机森林、支持向量机等算法,都是比较成熟的应用了。那今天本文,就给大家剖析一下当生物信息遇见机器学习,会有什么火花。

那开始讲生物信息与机器学习之前,我们要先阐述几个概念:

1. 什么是生物信息学的数据

2. 什么是GWAS

什么是生物信息学的数据

研究的数据类型,可以根据术手段分为基因型数据(GenoType Data)、表达量数据等;那其中基因型数据则是通过WGS、WES、基因芯片数据获得的。

而基因型数据的内部是有关联性的。而基因型数据间存在一定的关联性是由遗传学第三定律中连锁定律造成的;而基因型数据可以将数据理解为{0,1,2}(分别表示:野生型纯合、杂合、突变型纯合)。

位点之间如果充分杂交(换到医学研究中则是经过经历多世代),会达到连锁平衡状态。但是事实上,由于人口分层和其他因素,不存在完全独立的位,那么位点间存在着连锁不平衡现象(LD)。

某类疾病本质上是由于DNA突变造成了蛋白结构发生了改变,这类突变可能随机发生在一个基因区间上。某两个突变虽然没有遗传学上的联系,可能造成同一后果。因此可以以基因为单位作为观察对象,例如负荷检验(SNP Burden Test)。

对于RNA分子转录水平、蛋白表达量、代谢相关分子的定量等,也因为生物体本身的代谢调控的复杂性,造成变量内部会存在一定的相关性。例如某一转录调控因子基因转录水平增高,会引起一系列相关基因的转录水平升高。

而且基因型数据还具备高通量性。

什么是高通量性呢

其实高通量技术(如高通量测序、高通量质谱技术等)使得全基因组、蛋白组、代谢组水平的检测得到可能。但是位点信息动辄百万级,基因表达量也是万级别的,虽然初衷是对遗传和分子水平认知更为清晰,但是同时造成了无关变量的激增。

由于无关变量占比非常高,因此在数据分析时首要面对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值