目录
FASTQ 格式
fastq文件为.fastq/.fq为文件后缀的测序仪下机数据文件,其中包含测得的序列结果和序列质量分数。日常所见的fastq文件可能出于节约空间考虑,为.fastq.gz/.fq.gz的压缩格式存放。
在fastq文件中,一条序列通常包含4行:
- 第一行以@开头,然后是序列标识符和描述信息(测序机器编号等)
- 第二行是序列信息
- 第三行以“ +”开头,一般来说仅有一个加号
- 第四行是质量分数信息,与第二行中的序列相对应,并且长度必须与第二行相同
以下是包含一条序列的FASTQ文件的示例:
@A00234:1023:HLGC5DSX3:1:1101:1253:1000 1:N:0:ATCGTACT
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中, “!”是最低质量, “~” 是最高质量. 从左到右的以下字符代表从低到高的质量得分:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
每个字符的ASCII值减去33,对应第二行碱基的序列质量。如果测序错误率用e表示,Illumina测序平台的基本质量值用Qphred表示,则存在以下关系:
ASCII−33=Qphred=−10log10(e)ASCII−33=Qphred=−10log10(e)
此公式可以说明质量值越大,测序错误率(e)越低,准确度越高
FASTA 格式
FASTA是一种非常简单的序列存储格式,一般以.fasta/.fa为后缀。
在fasta文件中,其中包含一条或多条序列,一条序列通常包含2行:
- 第一行以>开头,然后是序列编号和序列命名
- 第二行是序列信息
以下是包含一条序列的FASTQ文件的示例:
>MN908947.3 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome
ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAA