# 关于NGS数据处理中的PCR Duplicate
最近在学ChIP-seq数据分析,遇到一个之前没遇到过的问题,关于PCR Duplicates的问题,记录一下自己搜索的答案和思考
在做转录组数据分析质控那一项的过程中,利用Fastqc质检得到的html结果文件中会出现一项指标——Sequence Duplication levels。具体可以参考fastQC对RNA-seq质控。这项指标统计了reads的重复水平。其中就谈到,如果折线图重复出现峰值,就可能是建库过程中PCR导致的duplication过多。PCR duplication也就是多个一模一样的reads(匹配到基因组的起始,终止位置相等,碱基序列相同,在同一条链上)是由于在建库过程中,由于本身提的RNA量比较少,需要PCR扩增才能进行后续的测序。因此,duplicates的出现是非常正常的。但是对于不同的技术,是否需要remove duplicates在网上讨论的非常多。下面是我的一点总结和思考:
1.实验方法的控制
在建库过程中,严格控制PCR的循环数,一般控制在6以内,在保证得到足够的测序所需的量的同时又保持文库足够的复杂性,将PCR duplicates rates 保持在低于4%的水平,所以获得足够多的DNA/RNA的量就能在很低的循环数下达到测序所需的量。本段内容参考lCureFFl.org
2.各种技术中对 remove duplicates的要求
2.1 RNA-seq
在biostars 和 seqanswer 都有讨论,总结如下:
在RNA-seq情况中,有重复片段,更有可能是一些基因有着很高的表达量。因此一般不处理,但是如果有证据证明确实是PCR duplicate而不是高表达的基因,那么就可以去除,能够去除重复的质控软件可以参考这篇hope。
2.2 ChIP-seq
ChIP-seq中出现的duplicates,两种情况
- Bad kind of duplicates:PCR duplicates,或者是所谓的 blacklisted region(富含高度重复序列的区域,如着丝粒,端粒等)产生的;
- good kind of duplicates:但测序深度加深后,Peaks 数量也会增加,如果去除,就会低估了Peaks signal。
综上所述:要根据你的富集效率和测序深度来具体分析,但是一般情况下由于我们无法区分上述两种情况,best practics is to remove duplicates prior to peak calling。因为前提假设是这样的:在破碎过程中,DNA片段是随机打碎的,因此同一个位置被同样的打碎的情况概率非常小,那么出现的一模一祥的reads一般认为就是PCR duplicates。
2.3.DNA-seq
全基因组重测序(WGS)中,如果要检测SNV(single nucleotide variant),如果PCR duplicates很多,就会影响检测的准确度。具体参考stackchange 和 知乎中的回答。
网上还有其他人做的分析与总结,也是不错的,可以参考sam'note