fastq格式,如何快速计算fasta, fastq的reads
2021-03-30 本文已影响0人
朱渠成
FASTQ
fastq格式是一种基于文本的存储生物序列和对应碱基或者氨基酸质量的文件格式,最初由桑格研究所(Wellcome Trust Sanger Institute)开发出来,现已成为存储高通量测序数据的事实标准。
举个例子:
head SRR4407795_1.fastq #查看前 10 行
我们可以看到每一个序列有四行
@SRR4407794.1 1 length=86
CCTGGCTTATTGCAGTTGTAACAAGATGGTTCGTCGGGACTCTGAGGGCAATCTTTGGCAAAGTGCCCTTCGCCATTACAGCGATA
+SRR4407794.1 1 length=86
FFFFFIIIIIIIIIIFFBFFIIBFF<FFBFFFF<FFFFFFFBBFBBFBBFBFFFFFBBBB<BB<BBBFBBBBFFFBBBBBFFFBBB
@SRR4407794.2 2 length=86
ATTTAAAATTAAAATATTAGATTTTATATTCACAAATCAATGATTTAAATTAAAAAAGTTTATTAAATAGATCGGAAGAGCACACG
+SRR4407794.2 2 length=86
BFFFBFIFIIBBFFFFFIFIIIIIIIIFIIFFFBFFI<<BFF<FFIIIFIIIFBFIII<BFBFFBBBFFFFFFFFBFFFFFFFBB<
...
第一行:必须以"@"开头,后面跟着序列的id信息,以及描述(测序通道,坐标,reads长度等)
第二行:序列
第三行:必须以"+"开头,后面跟着可选的ID标识符和可选的描述内容,但是内容必须和第一行保持一致
第四行:质量分数,对应到该测序仪器所采用的phred标准,对应ascall码范围求得整数质量分数值.
FASTA
fasta格式比较常见,用于表示核苷酸序列或氨基酸序列。
>QE2142515.1 CO1_species
MLLNKWFYSHKNIGTLYFIFGAGMLGTSFSLLIRAELGSPGSLIGNDHIFNVIVTSHAFIFFMVMPIMIGGFGNWLI
第一行:必须以">"开头,后面接序列的id信息,然后是描述部分
第二行:序列信息,可以是核酸或者是氨基酸序列
如何计算fasta,fastq的序列条数
根据以上的描述,我们知道知道fastq条数就是总行数/4,fasta条数就是数">"的个数
- fastq
expr $(cat test.fastq | wc -l) / 4
- fasta
grep ">" test.fasta | wc -l