三维和空间基因组学时代(上篇)
摘要
十多年前,高通量染色质构象捕获(Hi-C)技术的出现开启了三维基因组学的新纪元。从那时起,解析三维基因组的组织结构的方法与日俱增,使得人们越来越了解DNA是如何包装在细胞核中的,以及基因组的时空组织是如何协调其重要功能的。最近,随着新一代空间基因组学技术的出现,人们已经开始揭示基因组序列和三维基因组结构是如何在不同组织环境中的细胞之间变化的。在本文中,我们系统总结了用于解析基因组拓扑结构的技术和工具在过去十年中的发展情况,并讨论了新技术的发展如何推动三维和空间基因组学领域的发展。
Highlights
- 为了避免概念混淆,我们建议使用术语“三维基因组学”来表示对染色质在细胞核中的空间定位的研究,包括染色质互作和核界标相关区域,而“空间基因组学”则用于表示对天然组织环境中细胞的基因组序列和三维结构变化的研究。
- 将in situ条形码测序和ex situ基因组测序结合起来进行空间分辨率的基因组学研究是一种新兴的方法,该方法可用于解决细胞间基因组变异和癌症诊断的基本研究问题,从而绘制肿瘤内异质性的高分辨率图谱。
- 空间基因组学和空间转录组学为理解细胞的空间组织结构,以及如何在多细胞生物体中协调基本的生物学过程提供了前所未有的见解,有望彻底改变生物学和医学。
三维和空间基因组学的不同特征
与目前已被广泛接受[2]的“空间转录组学”[1]术语不同,“空间基因组学”这一术语只是最近才被提出的,且定义也不太明确。与空间转录组学相类似,术语“空间基因组学”可用于指示研究基因组序列如何在健康和疾病组织或器官的不同区域间的变化,例如使用多区域测序来研究肿瘤内的遗传异质性[3]。另一方面,自2009年高通量染色质构象捕获(Hi-C)技术问世以来[4],空间基因组学领域的许多研究主要集中在绘制细胞核内基因组的3D组织结构图谱[5,6]。为了避免概念的混淆,我们提议使用术语“三维基因组学”来表示对细胞核中遗传物质的空间排列以及相对于核界标(nuclear landmarks),如核纤层和核体的研究,而术语“空间基因组学”则表示研究基因组序列或基因组在细胞核中的空间定位如何在多细胞生物体的组织或器官中的特定位置从一个细胞到另一个细胞(以及在不同细胞类型)之间的变化(Figure 1A、B)。在本文中,我们简要回顾了研究三维基因组学的关键方法,这些方法使得人们能够在细胞群体和单细胞水平研究三维基因组的组织结构,然后重点介绍了正在点燃空间基因组学领域的新兴技术,这些技术允许我们跨组织研究多细胞间的(3D)基因组组织结构的变化。关于推进三维基因组学领域的相关方法进行更详细的比较,我们参考了几篇优秀的近期综述[6–11]。并且,在本文中,我们也不讨论已被广泛用于研究基因组变异的多区域测序方法,该方法在肿瘤中可达到空间分辨率。
image.png染色质互作测序及其他检测技术
实际上,大多数早期的三维基因组学研究都采用了基于成像的方法[12,13]。因此,二十多年前开发的第一种解析三维基因组互作关系的方法 -- 染色质构象捕获(3C)技术[14],在整个研究领域产生了巨大的连锁反应。3C技术及其后续的高通量测序版本-Hi-C[4]技术,是基于3C衍生的多种测序方法大家族中的两个主要成员[6,7,9],这些技术都是利用近端连接探测空间上相互接近的DNA序列之间的染色质互作。使用这些方法解析多种细胞类型和模式生物的三维基因组结构,人们发现基因组会普遍组织成多种不同层级的结构单元,包括A/B区室(compartments)和子区室[4,15],拓扑相关结构域(TADs) [16],和染色质互作环(loops)[15]。然而,包括Hi-C在内的大多数基于3C的方法(Box 1),由于使用了邻近连接、甲醛交联和限制性连接酶等而具有若干固有的连接偏差[17–21]。为了克服这些缺点,研究人员进一步开发了各种替代技术,包括基因组结构映射(GAM) [22],通过标记扩展对交互进行拆分-混池识别(SPRITE) [23],通过基于液滴和条形码链接测序进行染色质相互作用分析(ChIA-Drop) [24],DNA腺嘌呤甲基转移酶(Dam)C [25],以及化学交联辅助邻近连接捕获技术(CAP-C) [110]等。
image.png在这些技术中,GAM通过在交联核的冷冻切片中检测DNA位点的共测序频率来构建Hi-C样邻接矩阵,以规避邻近连接带来的偏差[22]。SPRITE通过连续几轮的拆分-混池添加条形码对交联的染色质复合物进行分割,在此期间,同一复合物中交联的染色质片段会混合到一起,并用同一系列的条形码进行标记[23]。类似地,ChIA-Drop依赖于使用微流体装置,通过液滴封装物理分离交联和DNase I消化的染色质复合物[26]。这样可以对不同液滴中的染色质复合物添加独特的条形码,并对共交联的染色质片段进行扩增测序[24]。相比之下,DamC代表了第一种基于3C技术且无需交联和连接的替代方法。DamC是DamID技术的一种改进,DamID是一种涉及将大肠杆菌Dam甲基化酶与感兴趣目的蛋白进行融合的方法,在表达时会导致空间上与融合蛋白接近的GATC序列中的腺嘌呤A进行甲基化,从而能够通过测序进行鉴定[27]。在DamC中,与反向四环素受体融合的Dam被条件性的(经多西环素处理后)招募整合到不同基因组位点的四环素操作子阵列中,之后通过测序检测DNA的甲基化来揭示染色质间的互作[25]。由于DamC是在非固定细胞中进行的,因此使用该技术证明了TADs和特定染色质环等结构不是因为细胞固定而产生的人工假象,同样可以在非固定的细胞内检测到[25]。最近,CAP-C [110]试图规避由蛋白质与DNA交联(在大多数基于3C的方法中发生在甲醛交联期间)时所引入的潜在偏差。这种偏差包括DNA结合蛋白在掩蔽限制性酶切位点和阻碍邻近连接中可能具有的潜在阻碍作用,其反过来会降低测序的分辨率和噪声。为此,CAP-C使用多功能化学平台和紫外线照射,通过直接交联DNA-DNA捕获染色质构象,以亚千碱基分辨率和低背景噪声生成基因组互作连接图[110]。此外,当在没有温和的甲醛预混合的情况下,CAP-C还能够检测天然的染色质构象[110]。除了检测成对位点之间的互作连接外,GAM,SPRITE,ChIA-Drop和其他几种3C方法[7,9]还可以检测揭示更高阶染色质结构的多重互作连接,特别是当应用于单细胞时,如单细胞SPRITE (scSPRITE) [28]等。
除了对DNA-DNA互作连接进行测序的方法之外,人们还开发了其他几种检测方法,它们可以根据核界标(nuclear landmarks)解析基因组的组织结构(Box 2)。例如,RNA和DNA (RD)-SPRITE允许同时捕获RNA-DNA、RNA-RNA和DNA-DNA之间的互作连接,从而能够检测由特定RNAs组成的核体相关的染色质互作中心,如核仁和核斑点[29]。同样地,根据转录组-基因组关联图谱的数据,如RNA-基因组互作图谱(MARGI) [30],也可以用于鉴定这些与核体相关的基因组区域[31]。此外,另一种识别与核界标相关区域的方法是利用组成这些结构的蛋白质。其中,实现这一目标的最古老且可能最广为人知的策略是DamID,该方法需要异位表达Dam融合蛋白,正如前文所述[27]。例如,DamID技术可以用于揭示与核纤层互作较强的基因组区域,也就是所谓的核膜相关结构域(LADs)[32],并且该技术最近也被提升到了单细胞水平,即scDamID[33]。此外,DamID还被定制到了scDAM&T-seq技术中[34],这是一种多模态的方法,可以同时在同一个细胞中检测蛋白质-DNA互作和RNA的表达,因此可以在单细胞水平上探索3D基因组结构和基因表达之间的相互作用关系[34,35]。除了检测互作频率之外,人们还开发了酪胺酸信号扩增测序(TSA-seq)的方法来估计基因组位点与特定核体之间的细胞学距离[36]。在TSA-seq中,人们使用辣根过氧化物酶偶联的抗体靶向感兴趣的蛋白质,该抗体在酪胺底物存在的情况下会产生自由基梯度,这种自由基梯度以一种几乎均匀的方式标记周围的基因组区域,可以达到距离靶位点数百纳米至一微米的距离[36]。对标记后的DNA进行测序后,我们可以基于DNA荧光原位杂交(FISH)测量的物理距离将标准化后的读数频率转换为与靶蛋白结合的3D距离,并且可以同时使用多个探针靶向具有不同TSA-seq值的基因组区域[36]。通过TSA-seq测序,人们发现基因组并非随机地排列在核斑点周围,而是在这些核体周围形成高度保守的基因表达梯度[37]。最后,为了克服DamID和TSA-seq技术对融合蛋白表达和大量细胞的需求,研究人员最近还设计了另一种方法,名为“使用CUT&RUN技术解析基因组组织”(GO-CaRT)[38]。GO-CaRT是基于CTU&RUN技术的基础而建立的[39],这是一种表观基因组学分析策略,通过使用与微球菌核酸酶连接的抗体原位切割相关的染色质,来解析体内与核体相关基因组区域的相互作用。将GO-CaRT应用于各种细胞类型,包括来自不同脑区和物种的神经前体细胞,结果发现了与先前由DamID鉴定出的LADs之间的差异,并发现它们在不同细胞类型之间的可变性高于之前所理解的[38]。此外,应用GO-CaRT技术解析人类前脑样本,人们还揭示了在所谓的核斑点相关结构域中存在转录活性的LAD亚结构域和精神分裂症遗传风险位点聚类域[38]。除了这三种主要的方法之外,通过在技术流程中加入免疫共沉淀步骤,研究人员还开发了SPRITE[40]和其他几种3C方法[7,9],现在人们还能够选择性地捕获与感兴趣的特定蛋白质相关或依赖于该蛋白质的染色质互作。
image.png尽管前文描述的技术主要探究了与选定的核界标相关联的基因组区域的特征,但这些技术并不能评估细胞核其余部分中的空间染色质结构的组织特征。因此,为了研究染色质穿过整个细胞核的辐射性,研究人员开发了一种通过测序定位基因组位点(GPSeq)的技术[41]。GPSeq在形态学上保留的交联核中,使用一段时间的限制性消化过程,对连续同心层中的染色质进行逐步标记。将层特异性的条形码连接到酶切的限制性位点后,对基因组DNA进行测序,并将基因组序列划分到合适大小的区域(通常为20–100 kb)。然后使用一种简单的数学计算方法,它比较了在不同的消化时间点上每个基因组区域内给定限制性酶切位点的消化概率[41]。通过将GPSeq获得的径向图谱与其他方法获得的多种全基因组染色质特征相叠加,如ATAC-seq [42]和ChIP-seq [43],人们发现许多线性基因组和表观基因组相关特征,包括各种表观遗传标记、转录因子结合基序和复制时间区--沿着核半径进行空间组织[41,44]。在许多核RNA相关联的染色质区域,人们也发现了这种类似放射状组织结构的存在,表明径向梯度分布是三维基因组结构的重要设计原则[45]。值得注意的是,在计算机三维基因组建模中,通过Hi-C染色质互作图谱和GPSeq生成的径向图进行整合计算可以得到显著改善的建模结果[41]。除了这种方法之外,越来越多的计算方法集成了多模态组学数据集来模拟三维基因组结构,如核基因组的空间位置推断(SPIN) [46],可用于探索三维基因组结构如何在遗传上相同的细胞之间的变化。此外,目前许多基于测序的检测方法已被改进提升至单细胞水平,包括单细胞高通量染色体构象捕获技术(scHi-C) [47,48],Dip-C [49],scSPRITE [28],以及scDAM-ID [33],通过这些技术我们可以研究不同细胞类型之间的三维基因组动态变化特征。由于对这些方法的描述超出了本综述的范围,我们建议读者可以参考最近发表的几篇介绍三维基因组学单细胞方法的优秀综述[50,51]。