常用序列比对软件的区别和选择(获取sam文件)

目录

1、软件对比 

2、软件使用

Bowtie2

BWA

Minimap2

STAR

HISAT2

病原微生物分析系统


在对一个已知物种进行测序后,通常需要将下机数据进行序列质量的质控,随后将质控后的序列比对到这个物种的参考序列上,来进行后续的研究,比如变异分析、获取一致性序列、mRNA定量、去宿主/污染等。

目前常用的用于高通量测序下机数据比对到参考基因组,最终的到sam文件的比对软件有以下几种,分别为BWA,Bowtie2,STAR,HISAT2,Minimap2。

这些软件分别对应不同的使用场景,比如在比对二代/三代测序数据,DNA/RNA序列都有各自的优势。

1、软件对比 

软件数据类型主要优势典型使用场景
Bowtie2DNA短读长 (Illumina)超快、内存低、支持end-to-end/local模式WGS/WES/ChIP-seq/ATAC-seq(短读长DNA比对)
BWA-MEMDNA短读长/中等长读长高精度(尤其indel)、支持>100bp长读长重测序、外显子组、PacBio CLR数据
Minimap2长短读长通用速度极快、内存占用低、支持ONT/PacBio长读长比对、交叉物种比对、快速短读长分析(支持但不建议)
STARRNA-seq精准识别剪接位点、支持嵌合比对RNA-seq转录本定量与可变剪接分析
HISAT2RNA-seq相比于STAR 内存占用更低、速度更快内存受限的RNA-seq分析(如单细胞RNA-seq

2、软件使用

Bowtie2

Bowtie2主要用于短读长基因组测序的序列比对,具有速度快,占用资源较少的特点。

Bowtie2在比对之前需要建立索引,建索引命令为:

bowtie2-build reference.fasta index_name

开始比对:

#单端测序
bowtie2 -p 8 -x index_name -U reads.fq -S output.sam

#双端测序
bowtie2 -p 8 -x index_name -1 read1.fq -2 read2.fq -S output.sam
BWA

BWA同样是应用于基因组测序的序列比对的软件,但BWA不仅支持短读长比对,还支持部分长读长的序列比对(虽然不推荐),并且BWA在比对后续分析结构变异的时候相较于Bowtie2具有较大优势。

BWA建索引命令:

bwa index reference.fasta

BWA比对命令:

# 单端测序
bwa mem -t 8 reference.fasta reads.fq > output.sam

# 双端测序
bwa mem -t 8 reference.fasta read1.fq read2.fq > output.sam

# 三代测序
bwa mem -x pacbio -t 8 reference.fasta pacbio_reads.fastq > output.sam
Minimap2

Minimap2是最适用于三代测序序列比对的软件,特别适用于长读长测序数据(如PacBio和Oxford Nanopore)的比对工作。

Minimap2建索引命令:

minimap2 -d reference.mmi reference.fasta

Minimap2比对命令:

# Nanopore比对
minimap2 -ax map-ont -t 32 reference.mmi reads.fq > output.sam

# Pacbio比对
minimap2 -ax map-pb -t 32 reference.mmi reads.fq > output.sam
STAR

STAR是用于RNA-seq比对的软件,在运行速度快的同时保证了高比对质量。

STAR建索引命令:

mkdir star_index
STAR --runMode genomeGenerate \
     --genomeDir star_index \
     --genomeFastaFiles reference.fasta \
     --sjdbGTFfile annotation.gtf \
     --sjdbOverhang 99 \          # 读长减1(如100bp读长设为99)
     --runThreadN 16

 STAR比对命令:

STAR --genomeDir star_index \
     --readFilesIn read1.fq.gz read2.fq.gz \
     --readFilesCommand gunzip \    # 若为.gz压缩文件
     --outSAMtype SAM \           # 指定输出SAM格式
     --runThreadN 16 \
     --outFileNamePrefix star_
HISAT2

HISAT2同样是进行RNA-seq序列比对的软件,与STAR相比,HISAT2的所需计算资源更低,可以在服务器配置更低的环境下使用。

HISAT2建索引命令:

# 提取剪接位点信息(需GTF注释)
hisat2_extract_splice_sites.py annotation.gtf > splicesites.txt

# 构建索引
hisat2-build -p 8 reference.fasta --ss splicesites.txt hisat2_index

HISAT2比对命令:

hisat2 -x hisat2_index -1 read1.fq -2 read2.fq -S output.sam -p 8

以上是五种比对软件的优势对比和使用场景,在使用时可以根据手中的序列类型决定选取哪个比对软件。

往期文章:

生信介绍专栏https://blog.csdn.net/avalon96/category_12983267.html


病原微生物分析系统

深圳臻合智造生物科技有限公司开发的病原微生物分析系统,在各模块的比对环节,根据比对条件自动切换合适的比对软件,比如在比对重测序基因组时选取了Bowtie2,在比对三代序列时选取了Minimap2。并且对于比对结果有直观的数据统计展示。

病原微生物分析系统

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值