思考——为什么广为人知的CUT&Tag没有UMI的说法

2022-08-10 本文已影响0人 Bio_Infor

CUT&Tag 已经介绍过了，是一种研究蛋白与DNA互作（以及捕获DNA上特定特征）的组学技术，具体的艰苦流程以及和传统的ChIP-seq之间的比较已经在帖子组学技术——CUT&Tag 中一起学习了。今天给大家分享：为什么广为人知的CUT&Tag没有UMI这个说法。

什么是UMI？

首先什么是UMI，UMI的全称是Unique Molecular Identifier，UMI最广为人知的作用就是在于其能够帮助我们去除真正意义上的PCR duplicate。什么是PCR duplicate？以经典的ChIP-seq为例，由于我们的起始DNA量可能很少，为了满足测序要求，会首先将这些DNA进行PCR扩增然后再进行测序，在测序过程中会出现一种情况：测得的几条reads都是来自于同一条DNA扩增出来的片段，这就是PCR duplicate，这种信号高并不是read本身就多，而是其PCR产物可能较多。那么为什么UMI能够解决这个问题呢？

简单来说，UMI能够帮助我们区分真正的PCR duplicate和假的PCR duplicate，这是因为如果我们测得的两个reads完全一样，可能有两个来源：（1）两个reads确实是由一个DNA经过PCR扩增而来的；（2）两个reads是由两个一样的DNA分别扩增而来的。显然，后者是具有生物学意义的，我们不能将这种盲目定义成为PCR duplicate。那么如何区分呢？一个简单的方法就是在进行PCR扩增之前，就在起始的不同DNA上（例如ChIP-seq超声打断的DNA）分别连接一段不同的核酸链（诸如6bp，ACCATG）。以上图为例，如果没有添加这段UMI，我们没法知道左边的reads实际上是来自于3个不同的起始DNA分子的，但是一旦添加了UMI，我们就知道了（右图）。

UMI一样就一定的PCR duplicate吗？

显然不是。简单想一想，现在一般UMI长度都是6~8bp，即使长度为8bp，也只会有65536种UMI分子。但实际上我们的一个文库不可能只有这么点reads（fragments），所以实际上，只有本身reads或者fragments一样而且它们的UMI也一样才会被鉴定成为PCR duplicate。

CUT&Tag？UMI？

我在前面介绍过CUT&Tag的建库，其中一个比较关键的过程就是转座酶“切割”DNA的同时在DNA片段两端连接一段DNA序列，而这个DNA序列所有的转座酶都是一样的，为了后续建库还需要针对这段DNA序列设计包含测序接头的引物对文库进行PCR，添加测序接头，也就是我们常说的adapter。所以转座酶添加的这段DNA本身没有包含UMI的信息，如果要添加UMI只能在添加测序接头的引物上做文章。

但这也会带来一些问题，一旦UMI在引物上就涉及到引物结合时的互补配对，事实上很多UMI本身只会有一两个碱基的区别，在进行PCR时对于很长的引物是可以允许少许碱基的错配的，这很有可能发生在UMI上。也就是说随着PCR的进行，同一个分子扩增出来的DNA上有可能会由于碱基错配而带有不同的UMI，这也就丧失了UMI本身的意义了。

有必要强行添加UMI吗？

当然也许有人会想在CUT&Tag中添加UMI，实现思路是这样：

首先通过一轮PCR将UMI添加到DNA上，此时UMI不会参与到碱基互补配对当中；
针对第一轮添加的 凸出来的 的DNA序设计引物序列，然后再正常进行PCR建库即可。

但是这样存在一个问题：效率问题。我们无法保证在第一轮PCR的时候能够很好地将UMI加上，所以这样实际上是得不偿失的。

思考——为什么广为人知的CUT&Tag没有UMI的说法

什么是UMI？

UMI一样就一定的PCR duplicate吗？

CUT&Tag？UMI？

有必要强行添加UMI吗？

最后祝大家暑期愉快~

猜你喜欢

热点阅读