生物信息学生物信息学与算法生信基础知识

fastq和fasta文件格式

2019-07-24  本文已影响1人  好风凭借力

FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式。格式通常有四行,第一行以@开头,后面接序列信息;第二行是序列信息;第三行以+开头,后面是序列信息,或者没有。第四行是序列质量,字符数和第二行是一致的。例如:

@HWUSI-EAS100R:6:73:941:1973#0/1

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT

+HWUSI-EAS100R:6:73:941:1973#0/1

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6


FASTA格式是一种基于文本用于表示核酸序列多肽序列的格式。其中核酸氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为生物信息学领域的一项标准。fasta格式文件的第一行是由大于号“>”(较常用)或分号“;”打头的任意文字说明,用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸氨基酸编码符号(参见支持代码类型)。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。一般每行60~80个字母。

上一篇 下一篇

猜你喜欢

热点阅读