FASTQ与FASTA格式简介

Avalon96

已于 2025-06-09 10:19:30 修改

阅读量383

点赞数 12

CC 4.0 BY-SA版权

分类专栏：汇佰生物-生信介绍文章标签：生物信息学

于 2025-06-09 09:39:00 首次发布

本文链接：https://blog.csdn.net/Avalon96/article/details/148524450

汇佰生物-生信介绍专栏收录该内容

8 篇文章

订阅专栏

FASTQ 格式

FASTA 格式

FASTQ 格式

fastq文件为.fastq/.fq为文件后缀的测序仪下机数据文件，其中包含测得的序列结果和序列质量分数。日常所见的fastq文件可能出于节约空间考虑，为.fastq.gz/.fq.gz的压缩格式存放。

在fastq文件中，一条序列通常包含4行：

第一行以@开头，然后是序列标识符和描述信息（测序机器编号等）
第二行是序列信息
第三行以“ +”开头，一般来说仅有一个加号
第四行是质量分数信息，与第二行中的序列相对应，并且长度必须与第二行相同

以下是包含一条序列的FASTQ文件的示例:

@A00234:1023:HLGC5DSX3:1:1101:1253:1000 1:N:0:ATCGTACT
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中, “!”是最低质量， “~” 是最高质量. 从左到右的以下字符代表从低到高的质量得分:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

每个字符的ASCII值减去33，对应第二行碱基的序列质量。如果测序错误率用e表示，Illumina测序平台的基本质量值用Qphred表示，则存在以下关系:

ASCII−33=Qphred=−10log10(e)ASCII−33=Qphred=−10log⁡10(e)

此公式可以说明质量值越大，测序错误率（e）越低，准确度越高

FASTA 格式

FASTA是一种非常简单的序列存储格式，一般以.fasta/.fa为后缀。

在fasta文件中，其中包含一条或多条序列，一条序列通常包含2行：

第一行以>开头，然后是序列编号和序列命名
第二行是序列信息

以下是包含一条序列的FASTQ文件的示例:

>MN908947.3 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome
ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAA