生信技术原理生物信息学技能生信算法流程

FastQC数据质控报告的详细解读

2019-08-02  本文已影响0人  husy_
  1. Basic Statistics 基本信息
image

2. Per base sequence quility:每个测序read各碱基质量【十分重要!】

image

3. Per sequence quility scores:每条序列 质量统计

image

4. Per base sequence content:read各个位置碱基比例分布

image

5. Per sequence GC content: 序列平均GC分布

image
  1. 前面提到了,GC可以作为物种特异性根据,这里出现了其他的峰有可能混入了其他物种的DNA

  2. 目前二代测序基本都会有序列偏向性(所说的 bias),也就是某些特定区域会被反复测序,以至于高于正常水平,变相说明测序过程不够随机。这种现象会对以后的变异检测以及CNV分析造成影响

6. Per base N content: N含量分布

image

7. Sequence length distribution: 序列长度统计

image
  1. Sequence duplication level:统计序列完全一样的reads的频率
image

9. Overrepresented sequences:大量重复序列

image
  1. Adapter content: 接头含量
image
  1. (还有一类这里没体现)Kmer content: 重复短序列
image
  1. 没有去除软件内置的adapter或者没有使用-a参数自定义adapter

  2. 序列本身重复度较高,例如在建库PCR过程出现序列偏向性bias--> 这在转录组测序中确实存在

上一篇下一篇

猜你喜欢

热点阅读