FASTQ与FASTA格式简介

目录

FASTQ 格式

 FASTA 格式


FASTQ 格式

fastq文件为.fastq/.fq为文件后缀的测序仪下机数据文件,其中包含测得的序列结果和序列质量分数。日常所见的fastq文件可能出于节约空间考虑,为.fastq.gz/.fq.gz的压缩格式存放。

在fastq文件中,一条序列通常包含4行:

  • 第一行以@开头,然后是序列标识符和描述信息(测序机器编号等)
  • 第二行是序列信息
  • 第三行以“ +”开头,一般来说仅有一个加号
  • 第四行是质量分数信息,与第二行中的序列相对应,并且长度必须与第二行相同

    以下是包含一条序列的FASTQ文件的示例:

@A00234:1023:HLGC5DSX3:1:1101:1253:1000 1:N:0:ATCGTACT
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

    其中, “!”是最低质量, “~” 是最高质量. 从左到右的以下字符代表从低到高的质量得分:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

    每个字符的ASCII值减去33,对应第二行碱基的序列质量。如果测序错误率用e表示,Illumina测序平台的基本质量值用Qphred表示,则存在以下关系:

ASCII−33=Qphred=−10log10(e)ASCII−33=Qphred=−10log⁡10(e)

    此公式可以说明质量值越大,测序错误率(e)越低,准确度越高


    FASTA 格式

    FASTA是一种非常简单的序列存储格式,一般以.fasta/.fa为后缀。

    在fasta文件中,其中包含一条或多条序列,一条序列通常包含2行:

    • 第一行以>开头,然后是序列编号和序列命名
    • 第二行是序列信息

        以下是包含一条序列的FASTQ文件的示例:

    >MN908947.3 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome
    ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAA

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值