基于短序列读段的转录本异构体推断

# 基于短序列读段的转录本异构体推断 ## 1. 算法核心步骤在算法的第17和18步，构建了一个加权集合覆盖实例。其目的是找到一个有效转录本异构体的子集，该子集的总权重最小，并且能够解释所有的短读段和起始 - 结束片段。由于涉及的实例规模较小，这个集合覆盖问题可以使用GNU软件包GLPK中实现的分支限界法来求解。 ## 2. 模拟测试结果 ### 2.1 数据准备 - 从UCSC（mm9，NCBI Build 37）下载所有小鼠基因的参考基因组序列和已知异构体。此数据集包含26,989个基因和49,409个异构体。其中，16,392个（60.7%）基因只有一个异构体，59个（0.2%）基因有超过10个异构体；5830个（21.6%）基因只有一个外显子，384个（1.4%）基因有超过40个外显子 - 内含子边界。 - 仅选取至少有两个已知异构体的基因，共得到10,595个基因。 - 提取所有的起始 - 结束片段，并随机生成每个异构体的相对表达水平。考虑三种表达水平分布： - Base10：为每个异构体生成一个遵循标准正态分布的随机数r，然后将\(10^r\)作为该异构体的相对表达水平。 - Base2：为每个异构体生成一个遵循标准正态分布的随机数r，然后将\(2^r\)作为该异构体的相对表达水平。 - Uniform：为每个异构体从[0,1]中均匀生成一个随机数r，并将其作为该异构体的相对表达水平。 - 根据异构体的相对表达水平，随机生成40M单端短读段和10M双端短读段。模拟中假设双端读段的跨度是一个服从正态分布\(N(\mu, \sigma^2)\)的随机变量。 ### 2.2 性能评估指标使用IsoInfer根据起始 - 结束片段以及单端和双端读段来恢复所有已知异构体。模拟中，单端和双端读段的长度分别为25bps和20bps，参数\(\alpha\)设为1 RPKM，\(\beta = 7\)，\(\gamma = 1000\)。考虑以下三个性能指标： - 灵敏度（Sensitivity）：恢复的异构体数量除以所有已知异构体的数量。 - 有效灵敏度（Effective Sensitivity）：恢复的异构体数量除以其外显子 - 内含子连接点得到读段数据支持的已知异构体数量。 - 精确率（Precision）：恢复的异构体数量除以推断出的异构体数量。 ### 2.3 表达水平计算为了评估QP公式的有效性，在已知的小鼠异构体上随机生成Base10表达水平和单端短读段，并检查是否能恢复已知异构体的正确表达水平。对于表达水平为\(x_f\)和计算得到的表达水平为\(x_f'\)的异构体f，使用相对差异\(\frac{|x_f' - x_f|}{x_f}\)来衡量计算的准确性。将该方法与简单方法（本文简记为Uniq）以及基于最大似然估计（MLE）和重要性采样（IS）的方法进行比较，结果如下表所示： |方法|1000万读段|8000万读段| | ---- | ---- | ---- | |MLE + IS|最准确|最准确| |Uniq|最差|最差| |IsoInfer|与MLE（后接IS）性能相当|与MLE（后接IS）性能相当| MLE + IS方法最准确，还能为每个表达水平估计提供95%的置信区间，但IsoInfer计算表达水平的速度比MLE + IS快得多（在标准台式PC上处理所有小鼠基因，IsoInfer需3分钟，而MLE + IS需3小时），其高效性使寻找新的异构体成为可能。 ### 2.4 表达水平分布的影响固定双端读段跨度的分布为正态分布\(N(300, 30^2)\)，分析表达水平分布对IsoInfer推断异构体性能的影响。Iso

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基于短序列读段的转录本异构体推断

相关推荐

专栏目录

基于短序列读段的转录本异构体推断

相关推荐

无比对系统发育重建与短序列读段的异构体推断

从短序列读取中推断异构体

转录组多样性探索：NCBI EST数据库深度解析

单细胞转录组数据深度分析：聚类与生物标志物识别方法（实战技巧大公开）

【特定领域应用】生物信息学数据分析：序列比对、基因表达数据分析

元宇宙电影的情感构建：数字媒体空间与叙事创新研究.docx

绿化养护管理操作流程及规范化程序设计.docx

Ansys-Simpack柔性化处理

高校新生报到信息系统设计与实施策略.docx

ncnn约洛夫_基于ncnn的yolov5 部署，提供了一个单文件编译例程， 实现了调用摄像头实现目标检测.zip

Spring容器启动时初始化一些信息：@postConstruct

基于PyTorch的深度多智能体强化学习框架PyMARL_集成QMIX_COMA_VDN_IQL_QTRAN算法与SMAC环境支持_专注于星际争霸II多智能体协作任务的研究与实验平.zip

专栏目录

最新推荐

Tableau高级功能：地图与仪表盘操作指南

Tableau基础图表的创建与理解

优化PowerBI体验与DAX代码的实用指南

数据故事创作：从理论到实践的全面指南

预训练模型的十大关键问题探索

问答与对话系统技术探索

电子商务中的聊天机器人：开发、测试与未来趋势

概率注释模型：特征添加与序列标注任务建模

Snowflake数据平台全方位解析

利用MicrosoftFairlearn实现AI系统的公平性

ncnn约洛夫_基于ncnn的yolov5 部署，提供了一个单文件编译例程，实现了调用摄像头实现目标检测.zip