思考——为什么广为人知的CUT&Tag没有UMI的说法

2022-08-10  本文已影响0人  Bio_Infor

CUT&Tag 已经介绍过了,是一种研究蛋白与DNA互作(以及捕获DNA上特定特征)的组学技术,具体的艰苦流程以及和传统的ChIP-seq之间的比较已经在帖子 组学技术——CUT&Tag 中一起学习了。今天给大家分享:为什么广为人知的CUT&Tag没有UMI这个说法

什么是UMI?

首先什么是UMI,UMI的全称是Unique Molecular Identifier,UMI最广为人知的作用就是在于其能够帮助我们去除真正意义上的PCR duplicate。什么是PCR duplicate?以经典的ChIP-seq为例,由于我们的起始DNA量可能很少,为了满足测序要求,会首先将这些DNA进行PCR扩增然后再进行测序,在测序过程中会出现一种情况:测得的几条reads都是来自于同一条DNA扩增出来的片段,这就是PCR duplicate,这种信号高并不是read本身就多,而是其PCR产物可能较多。那么为什么UMI能够解决这个问题呢?


简单来说,UMI能够帮助我们区分真正的PCR duplicate和假的PCR duplicate,这是因为如果我们测得的两个reads完全一样,可能有两个来源:(1)两个reads确实是由一个DNA经过PCR扩增而来的;(2)两个reads是由两个一样的DNA分别扩增而来的。显然,后者是具有生物学意义的,我们不能将这种盲目定义成为PCR duplicate。那么如何区分呢?一个简单的方法就是在进行PCR扩增之前,就在起始的不同DNA上(例如ChIP-seq超声打断的DNA)分别连接一段不同的核酸链(诸如6bp,ACCATG)。以上图为例,如果没有添加这段UMI,我们没法知道左边的reads实际上是来自于3个不同的起始DNA分子的,但是一旦添加了UMI,我们就知道了(右图)

UMI一样就一定的PCR duplicate吗?

显然不是。简单想一想,现在一般UMI长度都是6~8bp,即使长度为8bp,也只会有65536种UMI分子。但实际上我们的一个文库不可能只有这么点reads(fragments),所以实际上,只有本身reads或者fragments一样而且它们的UMI也一样才会被鉴定成为PCR duplicate

CUT&Tag?UMI?

我在前面介绍过CUT&Tag的建库,其中一个比较关键的过程就是转座酶“切割”DNA的同时在DNA片段两端连接一段DNA序列,而这个DNA序列所有的转座酶都是一样的,为了后续建库还需要针对这段DNA序列设计包含测序接头的引物对文库进行PCR,添加测序接头,也就是我们常说的adapter。所以转座酶添加的这段DNA本身没有包含UMI的信息,如果要添加UMI只能在添加测序接头的引物上做文章。

但这也会带来一些问题,一旦UMI在引物上就涉及到引物结合时的互补配对,事实上很多UMI本身只会有一两个碱基的区别,在进行PCR时对于很长的引物是可以允许少许碱基的错配的,这很有可能发生在UMI上。也就是说随着PCR的进行,同一个分子扩增出来的DNA上有可能会由于碱基错配而带有不同的UMI,这也就丧失了UMI本身的意义了。

有必要强行添加UMI吗?

当然也许有人会想在CUT&Tag中添加UMI,实现思路是这样:

但是这样存在一个问题:效率问题。我们无法保证在第一轮PCR的时候能够很好地将UMI加上,所以这样实际上是得不偿失的。

最后祝大家暑期愉快~
上一篇 下一篇

猜你喜欢

热点阅读