ChipSeq数据分析RNASeq 数据分析全基因组/外显子组测序分析

# 关于NGS数据处理中的PCR Duplicate

2019-06-10  本文已影响26人  不玩手机的蛇佬腔

最近在学ChIP-seq数据分析,遇到一个之前没遇到过的问题,关于PCR Duplicates的问题,记录一下自己搜索的答案和思考

在做转录组数据分析质控那一项的过程中,利用Fastqc质检得到的html结果文件中会出现一项指标——Sequence Duplication levels。具体可以参考fastQC对RNA-seq质控。这项指标统计了reads的重复水平。其中就谈到,如果折线图重复出现峰值,就可能是建库过程中PCR导致的duplication过多。PCR duplication也就是多个一模一样的reads(匹配到基因组的起始,终止位置相等,碱基序列相同,在同一条链上)是由于在建库过程中,由于本身提的RNA量比较少,需要PCR扩增才能进行后续的测序。因此,duplicates的出现是非常正常的。但是对于不同的技术,是否需要remove duplicates在网上讨论的非常多。下面是我的一点总结和思考:

1.实验方法的控制

在建库过程中,严格控制PCR的循环数,一般控制在6以内,在保证得到足够的测序所需的量的同时又保持文库足够的复杂性,将PCR duplicates rates 保持在低于4%的水平,所以获得足够多的DNA/RNA的量就能在很低的循环数下达到测序所需的量。本段内容参考lCureFFl.org

2.各种技术中对 remove duplicates的要求

2.1 RNA-seq

biostarsseqanswer 都有讨论,总结如下:
在RNA-seq情况中,有重复片段,更有可能是一些基因有着很高的表达量。因此一般不处理,但是如果有证据证明确实是PCR duplicate而不是高表达的基因,那么就可以去除,能够去除重复的质控软件可以参考这篇hope

2.2 ChIP-seq

ChIP-seq中出现的duplicates,两种情况

2.3.DNA-seq

全基因组重测序(WGS)中,如果要检测SNV(single nucleotide variant),如果PCR duplicates很多,就会影响检测的准确度。具体参考stackchange知乎中的回答。

网上还有其他人做的分析与总结,也是不错的,可以参考sam'note

上一篇下一篇

猜你喜欢

热点阅读