目录
大家在日常科研工作经常会需要通过查阅文献来获取我们需要的数据资源,下面我会通过两篇文章给大家介绍如何下载文章中的数据文件。
以下面一篇文章为例:
FASTA序列
NCBI的数据库收录了非常全面的序列文件,也具有非常通用的编号标识,如:NC_XXXX、NM_XXXX、NP_XXXX、GCF_XXXX、GCA_XXXX。只需要在NCBI首页搜索框中搜索这些编号,可以轻易的从NCBI数据库中获取到相应的序列。
如果没有编号该如何获取想要的序列?
1、如何下载基因组序列?
上述文章鉴定了一种人乳腺腺病毒D的一种新型,下面介绍如何获取人乳腺腺病毒D的基因组序列文件。
第一步,打开NCBI网站首页,在搜索框中搜索英文原名 Human mastadenovirus D。如果在左侧的选择栏中将All Databases切换为Genome可以直接跳过第二步。
第二步,在人乳腺腺病毒D的搜索结果中点击Genome。
第三步,在基因组数据库中可以看到每个基因组对应的基因组编号,点击左侧基因组名称。
第四步,在弹出的页面中可以看到一些基因组的信息。点击网页中的下载。
第五步,选择要下载的内容后点击下载,即可下载数据压缩包,解压后即可获得所选内容。
Genome sequences (FASTA):基因组核酸序列
Annotation features (GTF)和Annotation features (GFF):GTF和GFF格式的基因注释文件
Sequence and annotation (GBFF):Genbank文件
Genomic coding sequences (FASTA):基因组编码核酸序列文件
Protein (FASTA):蛋白序列文件
2、如何下载基因序列文件?
上述文章中描述了人乳腺腺病毒新型HAdV-D116,与参考基因组相比,基因E3缺失了2000bp,那么该如何获取基因E3的基因序列。
这里只建议通过基因库搜索基因,不建议直接从NCBI的首页搜索框查找。因为从首页搜索框的搜索结果无法第一时间固定物种。
第一步,打开基因搜索页面,输入物种和基因名,点击搜索
第二步,点击蓝色基因id,进入基因详情页面
第三步,点击下载数据集、选择下载核酸序列还是蛋白序列后点击下载,即可下载数据压缩包,解压后即可获得所选内容。
3、如何使用序列id下载?
一些文章会在图片或者正文中提供短序列或者基因组/基因序列的序列id。本文中作者提供了他上传至NCBI的新型ORF的序列编号 WQY95711。我们可以通过在首页搜索框中直接搜索WQY95711来定位序列详情页面。
第一步,在NCBI搜索框中搜索WQY95711。
第二步,如果序列id准确无误,页面第一个大窗口一般就是id对应的序列页面。可以点击下载按钮即可下载序列文件。
第三步,点击序列名称进入序列详情页面,点击页面中的Send to,点击File,将下方的Format切换为FASTA,然后点击Creata File即可下载。
4、如何使用命令行工具下载?
NCBI提供了一个专门用来下载NCBI序列的工具——datasets
软件安装需要使用以下命令:
pip install datasets
软件中含有很多子命令,但我们下载序列时只需要用到其中的两种命令
datasets download genome -h
datasets download gene -h
官方给出了几种使用示例:
指定下载基因组编号为GCF_000001405.40的XY染色体序列,包括蛋白序列和cds序列
datasets download genome accession GCF_000001405.40 --chromosomes X,Y --include protein,cds
下载物种名为bos taurus(牛)的所有基因组序列(数据量庞大,慎用!)
datasets download genome taxon "bos taurus"
下载物种名为mus musculus(小鼠)的brca1基因序列
datasets download gene symbol brca1 --taxon "mus musculus"
下载编号为NP_000483.3的基因序列
datasets download gene accession NP_000483.3
另外,后面可以添加--filename参数来指定下载后的文件名称(下载文件为zip格式,文件名后缀需要加.zip)
datasets download genome accession GCF_000001405.40 --filename GCF_000001405.zip
FASTQ序列
NCBI在下载序列时提供SRA编号的优点是节约空间。Fastq文件占用空间一般是很大的,而且会增加传输难度,所以采取了占用空间相对较小的SRA。缺点就是在数据分析时SRA格式并不通用,需要一定动手能力进行格式转换。一些文章会内附测序下机数据,通常情况下这些下机数据会存于BioProject或GEO数据库中,并且在文章结尾会给出BioProject或GEO数据库编号。
1、如何获取SRA编号?
BioProject
本文作者在文章结尾公布了他的序列测序下机数据,给出了BioProject编号PRJNA1184469。
第一步,类似序列id搜索的方式搜索PRJNA1184469,在搜索结果点击进入BioProject详情页。
第二步,点击详情页面中的SRA
第三步,点击Send to即可找到SRA文件存放位置。
GEO数据库
有时文章也会提供GEO数据库的id,名称一般为GSE****,此时只需要搜索编号后点击GSE详情页面下方的SRA Run Selector即可找到SRA文件存放位置。
2、如何下载SRA文件?
最好使用命令行工具下载SRA文件,便于后续转为fastq文件。
ncbi提供了一个SRA下载工具——prefetch
安装命令:
conda install sra-tools -c bioconda
具体使用方式:
单个文件下载
prefetch的使用方式非常简单,只需要在软件后面加上下机数据的SRA编号即可。
SRA编号就是SRA详情页表格中Run列的内容。
prefetch SRR31305104
批量文件下载
如果SRA文件特别多,手动一个一个下载非常费时费力,所以prefetch同样也支持批量下载。
先勾选需要下载的SRA文件,然后点击Selected右侧的Accession List,可以获得一个SRA列表文件SRR_Acc_List.txt。
然后在命令中指定此文件即可进行批量下载(注意路径!)
prefetch SRR_Acc_List.txt
3、如何将SRA转为fastq格式
需要使用软件fastq-dump,此软件在安装sra-tools时附带,无需另外安装。
将下载的SRR31305104.sra转为fastq,按照双端分割为两个fastq文件并压缩为gz文件
fastq-dump --split-3 --gzip SRR31305104.sra
其他序列数据资源网站
ENA
ENA Browserhttps://www.ebi.ac.uk/ena/browser/home此网站与ncbi互通,如果NCBI网站发生网络问题,可以转到ENA下载,ENA在下载测序fastq文件时可以直接下载fastq文件,但此功能还有些bug,选择双端两个fastq文件后,点击下载只会下载第一个,未来应该会修复。
GENECODE
GENECODE是一个专注于人、鼠参考序列及注释的资源站,网站更新非常及时,并且注释全面。
GENCODE - Home pagehttps://www.gencodegenes.org/
UCSC Xena
TCGA数据集下载站,将TCGA的数据集下载方式整合到一个网页中,便于检索数据集并下载。
UCSC Xenahttps://xenabrowser.net/datapages/
病原微生物分析系统——个性分析模块
由深圳臻合智造生物科技有限公司开发的病原微生物分析系统的【个性分析】模块包含了从数据下载到格式转换的所有功能。
- 无需编程,一键获取结果文件
- 自动请求多次下载,抗网络波动
- 全中文操作,界面简洁