文献阅读笔记:CUT&Tag
之前学习了CUT&RUN的一篇综述,在CUT&RUN的基础上,最近的一项更新的技术CUT&Tag也被发表出来了。这篇文献是2019年发表在Nature Communication上的一篇综述,介绍了这个新的技术。除了这篇综述,我还查询了其他文献,在本篇笔记的末尾放了一张ChIP-seq,CUT&RUN和CUT&Tag三种技术的样品制备比较示意图,非常直观的可以看到3种方法的差异。也易于理解。
题目:
CUT&Tag for efficient epigenomic profiling of small samples and single cells
摘要
许多染色质特征在调控基因表达中起着重要作用。要完全理解基因调控,需要在小样本细胞中以高分辨率绘制特定染色质特征。在这里,我们描述了Cleavage Under Targets and Tagmentation (CUT&Tag),它是一种酶栓系(enzyme-tethering)策略,提供了高效的高分辨率测序文库来分析不同的染色质成分。在CUT&Tag中,染色质蛋白被一种特异性抗体原位结合,然后将蛋白A - Tn5转座酶融合蛋白栓在一起。转座子酶的激活有效地产生具有高分辨率和极低背景的片段文库。从活细胞到测序文库的所有步骤都可以在实验台上的单个管或高通量管道中的微孔中完成,并且整个过程可以在一天内完成。我们通过分析组蛋白修饰、RNA聚合酶II和转录因子在低细胞数量和单细胞上的应用,证明了CUT&Tag的用途。
前言
大规模平行测序的出现和每个碱基成本的大幅降低推动了基因组学革命,然而,由于用于绘制染色质片段的方法存在局限性,表观基因组分析的前景一直滞后。染色质免疫沉淀测序技术(ChIP-seq)及其衍生方法具有信号低、背景高和交联导致的表位掩蔽等缺点,且需要大量的细胞。ChIP的替代方法包括对非固定细胞的酶拴系方法,如DamID7、ChEC-seq和CUT&RUN,将感兴趣的蛋白质定位在原位,然后进行全基因组分析。例如,CUT&RUN基于ChIC策略,通过连续结合特定抗体来map染色质蛋白,然后将Protein A/微球菌核酸酶(pA-MNase)融合蛋白固定在可渗透细胞(不交联)。通过添加钙激活MNase,将片段释放到上清液中,进行DNA提取、文库制备和paired-end测序。CUT&RUN提供了与ChIP-seq相比背景信号低得多的特定染色质组分的碱基对分辨率,大大降低了全基因组分析的成本。虽然CUT&RUN只需要100-1000个细胞就可以产生高质量的数据,但它必须随后进行DNA末端修饰和adapters连接来准备测序文库,这增加了整个过程的时间、成本和工作量。此外,通过CUT&RUN方法将MNase切割后的片段释放到上清液中并不适合应用于单细胞平台。(意思是CUT&RUN虽然很牛,但是做单细胞还是不行的)
在这里,我们克服了ChIP-seq和CUT&RUN的局限性,使用了由超活性Tn5转座酶-蛋白A (pA-Tn5)融合蛋白负载的测序adapters组成的转座体。在原位“栓系”后,激活pA-Tn5导致因子靶向标记,生成用于PCR富集和DNA测序的片段。从活细胞开始,CUT&Tag可以在一天内在实验台上或高通量方法中提供扩增的测序文库。我们证明,使用低细胞数甚至单个细胞,多种染色质成分可以在非常低的背景下被描绘出来。这种简单、低成本的方法将使表观遗传研究在生物研究的各个领域更加强大。
结果
(1)使用CUT&Tag有效的绘制核小体以及RNAPII图谱
通过tagmentation实现染色质分析(图1a),我们用一种针对H3K27me3的抗体孵育完整的渗透的人类K562细胞,H3K27me3是一种丰富的组蛋白修饰,它标记沉默染色质区域。我们用抗兔的二抗孵育细胞,以增加染色质位点上的抗体结合局部浓度,然后用预载有测序adapters的过量pA-Tn5融合蛋白孵育细胞,在核里将酶系在抗体结合位点。转座体与暴露的DNA有内在的亲和性,因此我们在严格的条件下清洗细胞以去除未拴住的pA-Tn5。然后,我们通过添加Mg++激活转座体,整合含h3k27me3核小体spanning位点的adapters。最后,从纯化的DNA中富集片段文库,并将其汇集到Illumina HiSeq的flow cell上进行多重配paired-end测序。整个方案在一个管中操作所有步骤(图1b),其中渗透的细胞首先与抗体混合,然后固定在Concanavalin A包被的磁珠上,允许在所有连续的洗涤和试剂孵育步骤中对细胞进行处理。为了在实验之间进行标准化,我们使用来自于大肠杆菌转座子酶蛋白生产过程中提取的少量示踪基因组DNA来进行样本read counts的标准化,以代替CUT&RUN9中推荐的异体spike-in DNA。
图1在大约800万reads的人类基因组组装中,显示了H3K27me3标记的大染色质区域的清晰图谱(图2a)。我们还获得了H3K4me1和H3K4me2组蛋白修饰的图谱,标记了活跃的染色质位点。相比之下,用非特异性IgG抗体孵育细胞,产生非常稀疏的背景信号(图2a)。为了评估CUT&Tag的信噪比,我们将其与CUT&RUN和ChIP-seq生成的分析结果进行了比较,检测K562细胞中的H3K27me3(相同的兔单克隆抗体)。为了直接比较这三种技术,我们将每个数据集的读取深度设置为800万reads。三种方法的landscape都是相似的,但是在ChIP-seq数据集中背景噪声占主导地位(图2a),因此ChIP-seq需要更多的reads来区分染色质特征和背景。相比之下,CUT&RUN和CUT&Tag的背景噪声都非常低。正如预期的那样,在H1胚胎干细胞(H1 ES)不同的人类细胞类型中的同一染色质区域,观察到非常不同的profiles(图2b)。为了更定量地比较每种方法中的信号和噪声水平,我们为每种方法生成了H3K4me1修饰基因组位点的热图。对每个数据集进行800万reads进行比较,我们发现在所有位点中,组蛋白修饰的CUT&Tag比CUT&RUN显示出更高的信号(图2c)。两种方法都有较低的背景周围的站点。相比之下,ChIP-seq信号的动态范围非常狭窄,只有CUT&Tag信号范围的1/20左右,而且大多数位点的信号都非常弱。为了定量比较,我们使用在H3K4me1 ChIP-seq数据集上显示的定义的前10,000个峰附近,计算CUT&Tag、CUT&RUN和ChIP-seq数据集的平均read counts(图2g)。我们发现,CUT&Tag分析在这些位点上提供了更多的信号积累,这意味着CUT&Tag在区分染色质特征时最有效,所需的reads最少。
图2基因和调控元件的转录状态可以从组蛋白修饰模式进行推断,但基因表达可以通过分析染色质结合的RNA聚合酶II (RNAPII)直接读出。我们使用了RNAPII的磷酸化抗体(S2/5p),用以区分参与的聚合酶。Landscapes显示RNAPII CUT&Tag在许多基因上的富集(图2a),启动子热图显示这种富集主要位于活性基因的5 '端(图2d)。
为了在不依赖于注释的情况下验证RNAPII CUT&Tag的结果,我们选择了通过碱基对分辨率PRO-seq技术获得的转录run-on数据,该技术使用一种与染色质分析无关的方法直接mapping RNAPII。PRO-seq定位了被激活的RNAPII 5 '末端的位置,并用于识别转录起始位点下游暂停的RNAPII。使用MACS2 call peak(RNAPII S2/5p CUT&Tag),并分析通过PRO-seq run-on人类K562细胞(SRA GSM1480327)的数据集。当使用RNAPII CUT&Tag 的MACS2评分排序时,PRO-seq的occupancy和RNAPII- ser2 /5p CUT&Tag的occupancy之间有密切的对应关系(图2e)。
(2)CUT&Tag灵敏地绘制染色质中的活性位点
通过CUT&Tag分析的H3K4me1修饰的重复非常相似,证明了该方法的可重复性(图3a)。当我们比较H3K27me3 CUT&Tag重复时,我们得到了相似的重现性。在先前的CUT&RUN分析实验中,我们发现与活性启动子和增强子相关的H3K4me2组蛋白修饰landscapes与ATAC-seq谱相似。因此,我们使用H3K4me2抗体进行CUT&Tag。我们发现H3K4me2在强的ATAC-seq峰时occupancies很高(图2f),read counts也很多(图2h),这意味着H3K4me2图谱能以更高的灵敏度捕获基因组中最占主导的染色质位点。
图3为了量化H3K4me2 CUT&Tag相对于H3K4me2 CUT&RUN、H3K4me2 ChIP-seq和ATACseq的敏感性,我们对每个方法进行了采样,并使用MACS2默认参数call peak。然后,我们评估在每一个peak里的reads比例。我们发现,CUT&RUN和CUT&Tag都比ChIP-seq或ATAC-seq有更多的reads,表明它们具有极低的信噪比(图3b)。此外,CUT&Tag在低测序深度时的峰分布更为迅速,其中~ 200万reads相当于CUT&RUN的100万reads(或ChIP-seq的2000万reads),证明了CUT&Tag的超高效率。在所有的方法中,只有CUT&Tag在峰内达到0.6的分数。因此,通过两种组蛋白修饰(H3K4me2和H3K27me3),我们将染色质landscape分为活性区和沉默区,即使测序深度相对较低。
(3) CUT&Tag同时绘制因子结合和可接近的DNA
为了确定我们是否可以使用CUT&Tag来绘制转录因子结合的图谱,我们测试了pA-Tn5在转录因子上的栓系是否可以与基因组中可接近的DNA位点区分开来。我们在CUT&Tag反应中使用了NPAT核因子的抗体,NPAT核因子是复制依赖组蛋白基因的转录辅激活因子。NPAT只结合了1号染色体和6号染色体组蛋白clusters中的约80个可接近位点,因此我们可以比较真正的结合位点和可接近位点。在NPAT CUT&Tag图谱中,约99%的read counts在组蛋白基因启动子处积累(图4a)。通过对已发表的ATAC-seq数据对应位点进行评分,我们发现较少数量的counts分布在K562基因组的可接近位点(图4b)。这可能是由于一些未栓系的pATn5与暴露的DNA原位结合造成的,但通过read覆盖的巨大差异,很容易区分抗体栓系位点与可接近位点(图4c)。事实上,通过标准算法进行call peak,NPAT CUT&Tag ~ 9000位点的数据生成一个列表,其中包括组蛋白基因启动子和10%的ATAC-defined可接近位点。虽然这只是定义的~ 54000可接近位点的一小部分,调整阈值和严格的NPAT peak calling可以提高峰检测。
图4为了测试CUT&Tag是否易于分析更丰富的转录因子结合位点,我们分析了CCCTC结合因子(CTCF)DNA结合蛋白。在这些实验中,我们通过改变缓冲液的严格程度来评估染色质中转录因子的置换情况。在低盐和中盐浓度条件下,我们观察到CUT&RUN和ChIPseq检测的CTCF位点的read计数(图5a),但有额外的小峰。这些额外的峰表明,未“栓系”pA-Tn5有助于这些实验的coverage。为了确定真正的CTCF结合位点是否可以通过read深度与可接近特征区分开,我们比较了高置信度CTCF位点(由peak-calling定义)的CUT&Tag read counts CUT&RUN data)到可接近位点的CUT&Tag read counts(由ATAC-seq数据peak-calling定义)。我们发现,这两种read counts分布重叠,但可接近位点的read counts低于CTCF位点(图5b)。仅基于reads深度,我们鉴别出约5600个CTCF结合位点,错误发现率为1%。比较这两类的motif富集,发现高信号motif对应CTCF motif(E-value = 2.1 × 10−69),低信号motif不对应。
我们通过绘制以CTCF结合位点为中心的reads末端来评估CUT&Tag的分辨率。这表明CUT&Tag保护的“footprint”在CTCF motif跨越80 bp(图5c)。而从Tn5整合保护的片段大于CUT&RUN中MNase保护的约45 bp,这表明tethered转座酶产生了高分辨率的因子结合位点图。在300-500mM盐浓度的情况下,不同的盐浓度洗涤也能得到相似的footprints结果,在一定程度上降低了信噪比(图5c)。高分辨率的CUT&Tag提供了单个位点的结构细节。例如,在代表性位点对CTCF、H3K4me1、H3K4me2、H3K4me3和ATAC映射的叠加,揭示了可接近的DNA、CTCF结合和修饰的邻近核小体之间的关系(图5d)。
图5(4) CUT&Tag在低细胞数量的样品和单细胞中的应用
ChIP需要大量的细胞材料,限制了它在实验和临床样品中的应用。然而,我们和其他人之前已经证明,像CUT&RUN这样的tethered分析策略具有足够的敏感性,因此分析小细胞数通常是可行的。CUT&Tag的信号改进表明,这种方法可以在有限的样本下更有效地工作。我们首先用CUT&Tag在大约1500倍范围的材料中测试了H3K27me3修饰,从100,000个细胞到60个细胞。我们从所有实验中观察到非常相似的高质量染色质谱(补充图1b),表明在少量材料的情况下仍然保持高数据质量。
补充图1bCUT&Tag的优点是,从抗体结合到adapters整合的整个反应都发生在完整的细胞内。转座子酶和染色质片段仍然结合在一起,因此片段化的DNA被保留在每个细胞核内。我们开发了一种简单的策略来生成单个细胞的染色质谱,我们称之为单细胞CUT&Tag(scCUT&Tag)(图6a)。我们对大量K562细胞群体进行H3K27me3修饰的scCUT&Tag分析,但在步骤之间温和离心,而不是ConcanavalinA 磁珠。整合后,我们使用Takara ICELL8纳米分装系统将单个细胞分离到5184孔的纳米孔芯片里,通过对芯片成像识别包含一个或仅包含一个细胞的纳米孔。然后,我们使用两个indexed引物对每个通过的纳米孔进行文库PCR富集,最后将芯片上的所有富集文库集中到一起进行Illumina深度测序,达到高冗余,以评估每个细胞的采样和覆盖。每个孔的文库由两个索引的独特组合来区分。
图6单个细胞染色质图谱的聚集与大量样本中产生的图谱非常匹配(图6b),具有较高的相关性(Pearson 's r = 0.89)。每个细胞通过全基因组的reads数量进行排序,每个细胞的唯一片段都显示在tracks中。值得注意的是,单个细胞中的大多数reads都位于分析中定义的H3K27me3区域内,这表明单细胞染色质分析的高恢复率(图6b)。H3K27me3 scCUT&Tag的第二个重复证明了单细胞分析的重现性。类似地,H3K4me2修饰的单细胞图谱概括了可接近和活性染色质的基因组landscapes(图6c)。在单个细胞中,相当大一部分reads属于定义的活性和沉默染色质特征(图6d, e)。
染色质特征的广度——从H3K4me2的大约5个核小体到H3K27me3区域的数百个核小体——即使在单个细胞稀疏采样的情况下,也有助于检测染色质特征。为了评估单个细胞的染色质特征是否可以用来区分细胞类型,我们进行了H3K27me3的scCUT&Tag分析(H1细胞)。我们再次发现,很大一部分reads位于分析定义的域内(图6e),bulk数据和聚集的单细胞数据之间具有很高的相关性(Pearson’s r = 0.85)。通过比较包含HoxB结构域的2Mb区域,可以发现H1细胞中单细胞轨迹中明显的组蛋白甲基化,而K562细胞中该区域缺失(图6f)。这些全基因组模式足以高效地区分H1细胞和K562细胞。因此,染色质图谱提供了一种区分单个细胞类型的方法。
讨论
通过CUT&Tag分析染色质可以有效地揭示基因组中的调控信息。与RNA-seq仅测量基因表达不同,染色质分析在识别沉默区方面具有独特的优势,这是细胞在发育过程中的确定“cell fates”的关键方面。虽然像ATAC-seq这样的方法可以绘制出可接近位点和因子结合位点,但结合在这些位点上的特定染色质蛋白必须从motif或染色质谱数据推断出来。虽然基于ChIP的方法已广泛应用于细胞系模型,但由于交联和染色质片段化的影响,ChIP-seq对染色质的分析受到限制,因为每个实验都需要优化。同样,最近的另一种交联染色质分析方法ChIL-seq比CUT&Tag需要更多的步骤,需要3-4天来完成所有步骤。相比之下,CUT&Tag过程,像CUT&RUN一样,是一种不固定的原位方法,并且很容易以标准化的方法实现。这与CUT&Tag的成本效益相结合,使得它适用于可以在核心设施中实现的高通量。可以想象,用户仅提供他们的细胞和抗体的混合物,并在短短几天内收到处理的深度测序文件。由于高通量CUT&Tag的第一步是在4°C条件下进行抗体孵育,样本可以在设备中积累一夜,然后一起装载到一个96孔板上进行自动化处理,就像我们之前在AutoCUT&RUN中演示的那样。由于试剂的高效使用和更好的信噪比,CUT&Tag比AutoCUT&RUN需要每个样本更少的reads,这已经比商业化外显子组测序便宜得多。虽然这种pipeline的简单和低成本很吸引人,自动染色质分析的主要优点是最小化批次效应并处理影响,从而最大限度地再现。这些方面对于临床分析和色谱靶向药物的检测是至关重要的。
我们已经证明,CUT&Tag使用ICELL8纳米分装系统提供了高质量的单细胞图谱,该系统可以在加入试剂和PCR之前进行成像。同样,CUT&Tag也应该适用于10×Genomics系统,他们最近公布了单细胞ATAC-seq方法。由于adapters是添加在bulk里的,所以CUT&Tag对高通量单细胞平台的适应性是有可能的。在CUT&Tag数据集中,低水平的非靶向可接近DNA位点和高水平的CTCF结合位点的不同分布表明,通过对这两种预期的潜在分布建模,可以在不使用其他数据的情况下区分真实结合位点和可接近DNA位点。这种策略的一个优点是,真实结合位点和可接近特征之间的统计差异允许在同一实验中描述两个染色质特征,其中可接近DNA位点和目标因子的结合位点可以被同时注释。在未来,我们预计adapters的条形码将允许多个表位同时在单个细胞中进行大量的分析,最大限度地发挥单细胞表观基因组分析在发育和疾病研究中的作用。
最后,放一张ChIP-seq,CUT&RUN和CUT&Tag三种方法的比较图:
Nat Protoc . 2020 Oct;15(10):3264-3283.