思考——为什么广为人知的CUT&Tag没有UMI的说法
CUT&Tag 已经介绍过了,是一种研究蛋白与DNA互作(以及捕获DNA上特定特征)的组学技术,具体的艰苦流程以及和传统的ChIP-seq之间的比较已经在帖子 组学技术——CUT&Tag 中一起学习了。今天给大家分享:为什么广为人知的CUT&Tag没有UMI这个说法。
什么是UMI?
首先什么是UMI,UMI的全称是Unique Molecular Identifier
,UMI最广为人知的作用就是在于其能够帮助我们去除真正意义上的PCR duplicate
。什么是PCR duplicate?以经典的ChIP-seq为例,由于我们的起始DNA量可能很少,为了满足测序要求,会首先将这些DNA进行PCR扩增然后再进行测序,在测序过程中会出现一种情况:测得的几条reads都是来自于同一条DNA扩增出来的片段,这就是PCR duplicate,这种信号高并不是read本身就多,而是其PCR产物可能较多。那么为什么UMI能够解决这个问题呢?
简单来说,UMI能够帮助我们区分真正的PCR duplicate和假的PCR duplicate,这是因为如果我们测得的两个reads完全一样,可能有两个来源:(1)两个reads确实是由一个DNA经过PCR扩增而来的;(2)两个reads是由两个一样的DNA分别扩增而来的。显然,后者是具有生物学意义的,我们不能将这种盲目定义成为PCR duplicate。那么如何区分呢?一个简单的方法就是在进行PCR扩增之前,就在起始的不同DNA上(例如ChIP-seq超声打断的DNA)分别连接一段不同的核酸链(诸如6bp,ACCATG)。以上图为例,如果没有添加这段UMI,我们没法知道左边的reads实际上是来自于3个不同的起始DNA分子的,但是一旦添加了UMI,我们就知道了(右图)。
UMI一样就一定的PCR duplicate吗?
显然不是。简单想一想,现在一般UMI长度都是6~8bp,即使长度为8bp,也只会有65536种UMI分子。但实际上我们的一个文库不可能只有这么点reads(fragments),所以实际上,只有本身reads或者fragments一样而且它们的UMI也一样才会被鉴定成为PCR duplicate。
CUT&Tag?UMI?
我在前面介绍过CUT&Tag的建库,其中一个比较关键的过程就是转座酶“切割”DNA的同时在DNA片段两端连接一段DNA序列,而这个DNA序列所有的转座酶都是一样的,为了后续建库还需要针对这段DNA序列设计包含测序接头的引物对文库进行PCR,添加测序接头,也就是我们常说的adapter。所以转座酶添加的这段DNA本身没有包含UMI的信息,如果要添加UMI只能在添加测序接头的引物上做文章。
但这也会带来一些问题,一旦UMI在引物上就涉及到引物结合时的互补配对,事实上很多UMI本身只会有一两个碱基的区别,在进行PCR时对于很长的引物是可以允许少许碱基的错配的,这很有可能发生在UMI上。也就是说随着PCR的进行,同一个分子扩增出来的DNA上有可能会由于碱基错配而带有不同的UMI,这也就丧失了UMI本身的意义了。
有必要强行添加UMI吗?
当然也许有人会想在CUT&Tag中添加UMI,实现思路是这样:
-
首先通过一轮PCR将UMI添加到DNA上,此时UMI不会参与到碱基互补配对当中;
-
针对第一轮添加的 凸出来的 的DNA序设计引物序列,然后再正常进行PCR建库即可。
但是这样存在一个问题:效率问题。我们无法保证在第一轮PCR的时候能够很好地将UMI加上,所以这样实际上是得不偿失的。