my RNA-seq关于测序的背景与实验生信基础知识

读懂FastQC质控报告—理解QC结果

2019-07-09  本文已影响52人  黄晶_id

拿到数据后通常需要使用FastQC软件进行质控,认识原始测序数据(fastq data)并查看数据质量怎么样。通过质控结果决定是否需要过滤,所以看懂质控报告很重要!!!

FastQC软件的质控结果是以网页html格式存放的,每⼀个输入的fastq.gz文件生成1个html网页和⼀个zip的压缩包,如果所示:


QC结果文件

压缩包里放的是网页中的图片,所以只需把html导入到个人电脑,查看质控结果即可。

FastQC Report主要包括以下几个部分:


每部分都对应一个图或表,我们来学习比较重要的几个图是怎么看的以及它代表含义。

1. Per base sequence quality—read各个位置的碱基质量值分布


横轴表示测序序列第1个碱基到第49个碱基;纵坐标表示每一bp所对应的测序质量值。蓝色的细线是各个位置的质量值的平均值的连线;
每个碱基测序质量值等于该碱基判断错误概率值P取log10之后再乘以-10。
Q = -10×log10(error P)
比如,P=1%,那么对应的Q=-10×log10(0.01) =20,即Q20表示1%的错误率, Q30表示0.1%的错误率

2. Per sequence quality scores—碱基的总体质量值分布

只要大部分都高于20,那么就比较正常。



Q20和Q30的比例是我们衡量测序质量的一个重要指标。对于二代测序,最好是达到Q20的碱基要在95%以上(最差不低于90%),Q30要求大于85%(最差也不要低于80%)。

3. Per base sequence content—read各个位置上碱基比例分布


横轴代表1到49bp;纵轴代表ATCG四个碱基在该bp的百分比。
这个是为了分析碱基的分离程度。何为碱基分离?我们知道AT配对,CG配对,假如测序过程是比较随机的话(随机意味着好),那么在每个位置上A和T比例应该差不多,C和G的比例也应该差不多,如上图所示,两者之间即使有偏差也不应该太大,最好平均在1%以内,如果过高,除非有合理的原因,比如某些特定的捕获测序所致,否则都需要注意是不是测序过程有什么偏差。
正常的测序结果都会出现如图所示那样前面的几个bp线是波动的,后面的线是平衡的。这是因为一般测序的时候,刚开始测序仪状态不稳定。出现这种开始部分的序列信息不平衡的情况时,如果测序得分很高,可以不对序列开始部分进行trim处理,如果测序得分很低,则需要对序列开始部分进行trim处理。

4. Per sequence GC content—GC含量分布图


横轴是0—100%;纵轴是拥有相对GC含量的序列所对应的数量。上面我们提到了GC含量在同一个物种中是一个恒定值,这里是46%。也就是说本图中在横坐标46处会有一个大peak,这就表明GC含量为46%的reads数量最多。

GC含量指的是G和C这两种碱基占总碱基的比例。二代测序平台或多或少都存在一定的测序偏向性,我们可以通过查看这个值来协助判断测序过程是否足够随机。对于人类来说,我们基因组的GC含量一般在40%左右。因此,如果发现GC含量的图谱明显偏离这个值那么说明测序过程存在较高的序列偏向性,结果就是基因组中某些特定区域被反复测序的几率高于平均水平,除了覆盖度会有偏离之后,将会影响下游的变异检测和CNV分析。

图中蓝线是一个理论值,红线有一个peak且与理论值(蓝线)基本重合说明该指标过关。当红线出现双峰,并且其中⼀个peak与蓝线相差很多时基本是混入了其他物种的DNA序列。遇到这个问题,首先进行mapping统计有多大比例reads map到了目标参考基因组上,如果比例非常低说明污染严重,数据不可用;如果大部分reads都map成功,剩余⼀部分可以通过blast检查是混⼊了哪些污染物,过滤掉这些reads就可以,不影响后续的分析。

5. Per base N content—N含量分布图


N在测序数据中一般是不应该出现的,如果出现则意味着,测序的光学信号无法被清晰分辨,如果这种情况多的话,往往意味着测序系统或者测序试剂的错误。

6. Sequence Length Distribution—测序长度分布


横坐标代表序列长度,纵坐标代表长度为某⼀bp的序列所对应的数量。
从reads长度分布图中我们可以看到绝大部分reads长度是49bp,因为测序仪成功下机的数据都是整齐的长度一定的序列,比如最常用的illumina X Ten是双端150bp;测序过程当中产生的不足150bp的序列在下机时已经被过滤掉了;
如果对刚下机的fastq数据进行cut adapter,序列的长度将不⼀致,因为reads中包含信息的insert的长度并不完全⼀致,150bp的测序长度是否已经包含了adapter的序列是未知的,因此cutadapter之后的reads长度不同。

7. Sequence Duplication Levels—reads重复率

duplicate的产生主要是因为Illumina建库的过程中,⼀般会需要使用PCR来帮助扩增插入序列的浓度。在扩增的过程中,如果PCR扩增轮数过大,就会出现duplicate的问题,即产生⼀模⼀样的若干条序列。


这张图是用来刻画duplicate情况的。横坐标代表序列重复水平;纵坐标代表重复水平序列占所有序列的百分比。
红线代表去duplicate之后序列理论重复性分布(服从possion distribution 或者 binomial distribution)情况,蓝线代表全部的序列重复性分布情况。这里的全部序列其实是选择的每⼀个文件里面前100,000条序列作为样本进行的计算,因为样本本身很大,前100,000已经能够代表样本的重复性。

思考:什么情况下应该去duplicate,什么情况下不去除?

DNA-Seq中序列如果是随机打断需要考虑deduplicaion;酶切的样本⼀般不需要考虑这个问题;
RNA-Seq⼀般不考虑remove duplication;
单细胞测序需要建库过程中需要添加random barcode,且必须考虑duplication。

8. Adapter Content—接头序列含量

adapter最主要的作用是为了能够与flowcell连接,方便进行桥式PCR。那么我们的fastq文件中到底含不含adapter呢? FastQC报告里这张图就能告诉我们

横坐标代表reads中的位置,纵坐标代表adapter序列含量的百分比。
被测到的接头序列和低质量碱基一样都是需要在正式分析之前进行切除的read片段;不含有接头序列的,后续过滤时也就不需要去接头处理。

Illumina的通用adapter序列:

Illumina Paired End Adapters (cannot be used for multiplexing)
Top adapter
5′ ACACTCTTTCCCTACACGACGCTCTTCCGATC*T 3’
Bottom adapter
5′ P-GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG 3’
**来源**
http://bioinformatics.cvr.ac.uk/blog/illumina-adapter-and-primer-sequences/
不同颜色的图例代表不同的测序通用的adapter;

如果在当时fastqc分析的时候-a选项没有内容,则默认使用图例中的通用adapter序列进行统计。

Ref:
知乎专栏文章:
1.https://zhuanlan.zhihu.com/p/34691037
2.https://zhuanlan.zhihu.com/p/34730000
3.https://zhuanlan.zhihu.com/p/34767591
4.https://zhuanlan.zhihu.com/p/34807639
5.https://zhuanlan.zhihu.com/p/34893375
6.https://zhuanlan.zhihu.com/p/34893666
简书文章:
7.https://www.jianshu.com/p/36891a89ed6e

上一篇下一篇

猜你喜欢

热点阅读