公共数据库挖掘第一步-GEO数据库下载表达谱数据和生存数据

本文介绍了如何从GEO数据库下载基因表达谱和生存数据,涉及基于NGS和芯片的表达谱数据,以及如何利用series matrix文件获取样本信息,包括生存数据。同时强调了原始数据的重要性,提供了数据下载链接和处理方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

欢迎关注”生信修炼手册”!

在NAD+代谢相关基因的文章中,针对来自GEO数据库的ALS患者的表达谱数据进行了挖掘,本文就以这两批GEO数据为例,来详细展示原始数据的下载过程

fe3960ed55aa368e3b57d6b79895e95b.png

公共数据库的数据挖掘有多种模式,每种模式需要的原始数据也不尽相同。所以,首先我们要明确目标,对于这个基因建模而言,我们需要以下两种数据

1. 基因表达谱

2. 患者的生存数据

明确目标之后,我们就可以针对的来分析寻找数据了

1. 基因表达谱

在GEO数据库中收录的表达谱数据有两种类型

1. 基于NGS的表达谱

2. 基于芯片的表达谱

二者的模式稍有不同,芯片平台以探针为单位,而NGS的数据直接以基因为单位。我们最终希望得到的表达谱数据就是行为基因,列为样本的表达谱,所以

1.对于芯片平台,在下载表达谱的同时,我们还需要下载芯片对应平台的注释文件,主要是提供探针到基因的映射关系

2.对于NGS, 基因定量的坐标来自于GTF文件,芯片平台在NGS就对应了GTF的版本

GEO一开始就是用来存储芯片表达谱数据的,所以对于芯片恶言,会有一个通用的格式,以GSE112676为例,数据链接如下

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE112676

我们需要重点关注两部分