GSEA 的 KEGG 代谢通路富集分析图
时间: 2025-06-25 08:12:09 浏览: 16
### 关于GSEA中KEGG代谢通路富集分析图的绘制方法
在GSEA工具中,可以通过指定基因集合来实现KEGG代谢通路的富集分析。具体来说,GSEA支持多种预定义的基因集合库,其中包括来自KEGG数据库的代谢通路信息[^4]。这些基因集合包含了与特定生物过程、信号传导路径以及代谢活动相关的基因列表。
#### 绘制KEGG代谢通路富集分析图的方法
要生成KEGG代谢通路富集分析图,需按照以下流程准备输入文件并运行GSEA:
1. **准备表达矩阵**
需要一个标准化后的基因表达矩阵作为输入数据,其中每一列代表样本,每一行表示基因及其对应的表达水平。
2. **创建类别标签文件(CLS 文件)**
CLS 文件用于区分实验中的不同条件或分组,例如对照组和处理组之间的差异。
3. **选择合适的基因集合**
在GSEA参数设置阶段,应选择`c2.cp.kegg.vX.X.symbols.gmt`这一类别的基因集合,它专门针对KEGG通路设计[^4]。
4. **执行GSEA分析**
使用官方提供的桌面版软件或者通过命令行调用API接口完成计算任务。完成后会得到一系列结果文件,包括HTML格式报告和图表输出。
5. **提取感兴趣的结果图像**
结果页面通常包含按名义P值排序的所有显著性匹配项;对于每条记录而言,则有其专属详情页展示详细统计指标如NES分数等[^3]。
#### 解读KEGG代谢通路富集分析图的方式
当获得由GSEA生成的相关图片之后,可以从以下几个方面对其进行解析:
- **Normalized Enrichment Score (NES)**: 表明某个给定基因集中成员倾向于聚集在哪一侧排名靠前还是靠后的位置上。正值意味着该集合内的多数成分位于较高位置处,而负数则相反。
- **Nominal p-value**: 反映随机抽样条件下观察到如此极端分布的概率大小。较低数值暗示更强关联程度存在可能性更大一些[^1]。
- **False Discovery Rate q-value(FDR-qval)**: 控制多重假设检验错误率的一种度量标准。一般建议选取阈值小于等于0.25的数据点进一步探讨潜在意义所在之处[^1]。
另外值得注意的是,在某些情况下可能还需要关注leading edge subset部分所涉及的具体分子清单,因为它们往往构成了驱动整个效应发生的核心因子群体之一[^1]。
```python
import gseapy as gp
from matplotlib import pyplot as plt
# Example code to run GSEA with KEGG gene sets using Python package 'gseapy'
pre_res = gp.prerank(rnk='your_ranked_gene_list.txt',
gene_sets='/path/to/c2.cp.kegg.v7.4.symbols.gmt',
outdir='./results/', processes=4,
permutation_num=1000)
plt.figure(figsize=(8,6))
gp.plot_enrichment(res=pre_res.res2d.iloc[0], ofname="enrichment_plot.png", show=True)
```
阅读全文
相关推荐


















