目录
在对一个已知物种进行测序后,通常需要将下机数据进行序列质量的质控,随后将质控后的序列比对到这个物种的参考序列上,来进行后续的研究,比如变异分析、获取一致性序列、mRNA定量、去宿主/污染等。
目前常用的用于高通量测序下机数据比对到参考基因组,最终的到sam文件的比对软件有以下几种,分别为BWA,Bowtie2,STAR,HISAT2,Minimap2。
这些软件分别对应不同的使用场景,比如在比对二代/三代测序数据,DNA/RNA序列都有各自的优势。
1、软件对比
软件 | 数据类型 | 主要优势 | 典型使用场景 |
---|---|---|---|
Bowtie2 | DNA短读长 (Illumina) | 超快、内存低、支持end-to-end/local模式 | WGS/WES/ChIP-seq/ATAC-seq(短读长DNA比对) |
BWA-MEM | DNA短读长/中等长读长 | 高精度(尤其indel)、支持>100bp长读长 | 重测序、外显子组、PacBio CLR数据 |
Minimap2 | 长短读长通用 | 速度极快、内存占用低、支持ONT/PacBio | 长读长比对、交叉物种比对、快速短读长分析(支持但不建议) |
STAR | RNA-seq | 精准识别剪接位点、支持嵌合比对 | RNA-seq转录本定量与可变剪接分析 |
HISAT2 | RNA-seq | 相比于STAR 内存占用更低、速度更快 | 内存受限的RNA-seq分析(如单细胞RNA-seq |
2、软件使用
Bowtie2
Bowtie2主要用于短读长基因组测序的序列比对,具有速度快,占用资源较少的特点。
Bowtie2在比对之前需要建立索引,建索引命令为:
bowtie2-build reference.fasta index_name
开始比对:
#单端测序
bowtie2 -p 8 -x index_name -U reads.fq -S output.sam
#双端测序
bowtie2 -p 8 -x index_name -1 read1.fq -2 read2.fq -S output.sam
BWA
BWA同样是应用于基因组测序的序列比对的软件,但BWA不仅支持短读长比对,还支持部分长读长的序列比对(虽然不推荐),并且BWA在比对后续分析结构变异的时候相较于Bowtie2具有较大优势。
BWA建索引命令:
bwa index reference.fasta
BWA比对命令:
# 单端测序
bwa mem -t 8 reference.fasta reads.fq > output.sam
# 双端测序
bwa mem -t 8 reference.fasta read1.fq read2.fq > output.sam
# 三代测序
bwa mem -x pacbio -t 8 reference.fasta pacbio_reads.fastq > output.sam
Minimap2
Minimap2是最适用于三代测序序列比对的软件,特别适用于长读长测序数据(如PacBio和Oxford Nanopore)的比对工作。
Minimap2建索引命令:
minimap2 -d reference.mmi reference.fasta
Minimap2比对命令:
# Nanopore比对
minimap2 -ax map-ont -t 32 reference.mmi reads.fq > output.sam
# Pacbio比对
minimap2 -ax map-pb -t 32 reference.mmi reads.fq > output.sam
STAR
STAR是用于RNA-seq比对的软件,在运行速度快的同时保证了高比对质量。
STAR建索引命令:
mkdir star_index
STAR --runMode genomeGenerate \
--genomeDir star_index \
--genomeFastaFiles reference.fasta \
--sjdbGTFfile annotation.gtf \
--sjdbOverhang 99 \ # 读长减1(如100bp读长设为99)
--runThreadN 16
STAR比对命令:
STAR --genomeDir star_index \
--readFilesIn read1.fq.gz read2.fq.gz \
--readFilesCommand gunzip \ # 若为.gz压缩文件
--outSAMtype SAM \ # 指定输出SAM格式
--runThreadN 16 \
--outFileNamePrefix star_
HISAT2
HISAT2同样是进行RNA-seq序列比对的软件,与STAR相比,HISAT2的所需计算资源更低,可以在服务器配置更低的环境下使用。
HISAT2建索引命令:
# 提取剪接位点信息(需GTF注释)
hisat2_extract_splice_sites.py annotation.gtf > splicesites.txt
# 构建索引
hisat2-build -p 8 reference.fasta --ss splicesites.txt hisat2_index
HISAT2比对命令:
hisat2 -x hisat2_index -1 read1.fq -2 read2.fq -S output.sam -p 8
以上是五种比对软件的优势对比和使用场景,在使用时可以根据手中的序列类型决定选取哪个比对软件。
往期文章:
生信介绍专栏https://blog.csdn.net/avalon96/category_12983267.html
病原微生物分析系统
由深圳臻合智造生物科技有限公司开发的病原微生物分析系统,在各模块的比对环节,根据比对条件自动切换合适的比对软件,比如在比对重测序基因组时选取了Bowtie2,在比对三代序列时选取了Minimap2。并且对于比对结果有直观的数据统计展示。
病原微生物分析系统