有参转录组学习二:数据质控
2019-05-15 本文已影响0人
颤抖吧__小虫子
Author:ligc
Date:19/5/15
1.1 fastqc结果解读:
测序量:300M左右
reads长度:51bp
![](https://img.haomeiwen.com/i15845576/bac4ee3547ca6f79.png)
测序的adapter
![](https://img.haomeiwen.com/i15845576/b8b9ca804ff72fd5.png)
重复序列的大小和数量(对于转录组测序而言,由于样品经过PCR扩增,出现重复序列属于正常情况)
![](https://img.haomeiwen.com/i15845576/9f818d2fcd865af7.png)
reads中N(没测到)碱基的数量
![](https://img.haomeiwen.com/i15845576/0b865b59883d5e01.png)
reads中每个碱基的平均质量值。计算公式为:Q=-10log(p),能看到大部分的碱基质量都在Q30以上。
![](https://img.haomeiwen.com/i15845576/b9410201cbdede0f.png)
每个read中各个位置碱基的种类分布,刚开始GC含量不一致可能是由于开始的测序不稳定导致的。
![](https://img.haomeiwen.com/i15845576/0b9074fb9f2c9900.png)
每条序列的平均GC含量。
![](https://img.haomeiwen.com/i15845576/815154fdca50ccd7.png)
每条read的平均质量,Q30以上即可
![](https://img.haomeiwen.com/i15845576/d10cba5bac851157.png)
每个tile中所测得的碱基的质量
![](https://img.haomeiwen.com/i15845576/3a85ed70f0207b44.png)
reads的平均长度
![](https://img.haomeiwen.com/i15845576/ea93b82c398a1df4.png)
1.2 FASTQ格式说明
FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
FASTQ文件中,一个序列通常由四行组成:
第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
第二行为序列信息
第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同
以下为一个包含单个序列的FASTQ文件示例:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65