有参转录组学习二：数据质控

2019-05-15 本文已影响0人颤抖吧__小虫子

1.1 fastqc结果解读：

测序量：300M左右
reads长度：51bp

Basic Statistics

测序的adapter

adapter_content.png

重复序列的大小和数量(对于转录组测序而言，由于样品经过PCR扩增，出现重复序列属于正常情况）

duplication_levels.png

reads中N(没测到）碱基的数量

per_base_n_content.png

reads中每个碱基的平均质量值。计算公式为：Q=-10log(p),能看到大部分的碱基质量都在Q30以上。

per_base_quality.png

每个read中各个位置碱基的种类分布，刚开始GC含量不一致可能是由于开始的测序不稳定导致的。

per_base_sequence_content.png

每条序列的平均GC含量。

per_sequence_gc_content.png

每条read的平均质量，Q30以上即可

per_sequence_quality.png

每个tile中所测得的碱基的质量

per_tile_quality.png

reads的平均长度

sequence_length_distribution.png

FASTQ格式是一种保存生物序列（通常为核酸序列）及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
FASTQ文件中，一个序列通常由四行组成：

第一行以@开头，之后为序列的标识符以及描述信息（与FASTA格式的描述行类似）
第二行为序列信息
第三行以+开头，之后可以再次加上序列的标识及描述信息（可选）
第四行为质量得分信息，与第二行的序列相对应，长度必须与第二行相同

以下为一个包含单个序列的FASTQ文件示例：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65