(经典文献精读--高分辨率Hi-C)A 3D Map of th
这篇笔记来自于14年发表在cell上的文章:《A 3D Map of the Human Genome at Kilobase Resolution Reveals Principles of Chromatin Looping 》
他们利用了原位Hi-C(in situ Hi-C),探究基因组的3D结构。分析了9种细胞系的单倍体和二倍体。这篇文章的发现主要有:
1:在人类淋巴样细胞中,密度最大的区域包含49亿个接触点,分辨率达到1Kb。
2:基因组被histone marks划分为6个sub compartments
3:发现了约10,000个loop,他们在细胞谱系和物种进化上高度保守。
4:loop anchors位点一般结合了CTCF,是domain boundary
5:CTCF的 motif是收敛的,方向相对
6:失活的X染色体被分成了2个大domain,包含了large CTCF结合的repeats的loop
看完上述的highlight,我有几个问题:
1:我们来想一想一下几个问题?作者是如何提高Hi-C的分辨率这个问题的?
2:在提高了分辨率之后,作者有哪些发现呢?有没有相应的生物学实验去验证?
3:它的subcompartment 是如何发现和验证的?
4:CTCF的这个boundary是如何确定?
Result:
1: In situ Hi-C&得到的热图图谱
In situ Hi-C和最初dilution Hi-C的方法相比有以下几个优势:
1:原位ligation减少了稀溶液中随机ligation造成的错误的接触频率。而且在上清中进行连接发现错误率比较高。有研究表明,在上清中的连接是less meaningful.
2:这个protocol要求的时间更短,大概3天就能完成
3:得到的分辨率更高,并且能够更高效的去切染色质DNA(用的是4碱基的限制性内切酶而不是6碱基的限制性内切酶,提高切割率,分辨率也提高了)
Q1:什么是dilution Hi-C?它和原位Hi-C有什么区别呢?
dilution Hi-C是一代Hi-C,早期的实验方法认为,在65度时的SDS会导致细胞核破碎,基因组释放到溶液中。而科学家认为在稀释体积足够大,才没有随机连接,所以他们用了8ml的体系去稀释。 一代Hi-C的 实验原理图
此外,原位Hi-C的改进方法在于2点(基本原理是不变的,先是甲醛交联,然后再酶切连接,进行解交联测序。)
特点一 他们用的限制酶不是HindIII ,它是4碱基限制酶而不是6碱基的限制性内切酶。所以可以提高酶切效率。
特点二:它们用SDS处理的条件不同,原位Hi-C用的时 37度 1%的SDS处理10分钟。而一代Hi-C用的时65度
Hi-C结果可以被看做是“接触矩阵”M,通过在基因组上进行画bin(1MB/1kb的大小),Mij是Li, Lj观察到的互作的情况(指的是数到mapping到基因组的reads数,去除重复,没比对到基因组上的)。可以通过热图来可视化,定义一下矩阵的分辨率是locus的size大小(多少Kb)。Hi-C图的''矩阵分辨率'定义,为使得80%的locus具有至少1,000个interaction。 map分辨率反映可靠地识别最精细scale
2:在9个细胞系中看Hi-C图谱
(9个细胞系分别是 :GM12878, IMR90, HMEC, NHEK, HUVEC, 和CH12-LX,KBM7,Hela,K562)
之前的Hi-C数据的分辨率在1Mb,但是原位Hi-C的分辨率在1kb/5kb,在GM12878的细胞系中,我们可以看到它的分辨率在950bp左右。(接近1k)此外,进行方法比较(dilution Hi-C vs in situ Hi-C),我们可以看到,在看到3.2billion的 contact的情况下, in situ Hi-C的分辨率在500,50, 25kb分辨率。
然后他们运用了不同的Hi-C手段(原位Hi-C,稀释Hi-C,3C的不同的protocol,虽然每个protocol的交联时间,用的限制性内切酶不一样。但是最后用了矩阵平衡算法归一化了),用Juicebox进行可视化。去看结果。(后面的图都是用这个软件)
in situ Hi-C的结果和之前的数据得到的结果进行比较(一般来说,500kb看 A B compartment 50kb可以看到看到TAD ,50kb以下可以看到一些DNA loop)染色质的三维构象结构,分别是subcompartment,megabase domain,protein-mediate interaction
3:基因组被划分为平均长度为185 kb的small domain
我们首先探究基因组的3D分区。 在1 Mb分辨率的前期的实验中(Lieberman-Aiden et al,2009),我们看到热图对角线上大方块(代表了接触的频率)。 这些方块将基因组划分为5-20 Mb的间隔,我们将其称为“megadomains”。
我们也在1M(100kb)的分辨率下面,看到很多compartmentA/B (一般来说,compartmentA/B是类似于那种格子形状,有类似于条纹格子在的就认为有A/B compartment )他们发现compartment A的基因之间的互作是更加频繁的。而compartment B之间的基因互作是更加紧缩的。
在他们高分辨率的图谱中,看到了以下的现象。 文章fig2aQ2:那么如何去看compartment A/B之间的染色质的状态呢?
其实可以通过DNase酶去切,如果染色质结构松散的话是可以切的动,测序到得reads会比较多,但是如果染色质结构比较紧密,酶切后得到的reads不会很多。
先在对角线上看到了很多接触矩阵。接下来,他们用“arrowhead” matrix algorithm去注释以下全基因的domain之间的接触情况。他们发现这些domain的大小在40-3000kb(3Mb)
Q3: 什么箭头矩阵算法?
具体的情况如下图,目的就是为了看有偏还是无偏。 简单的来说,就是当一个位点i的右边(i+d)和i的接触比左边(i-d)的接触频率要高时,它是负值,如果是正值的话则相反,如果是0的话那就是二者接触都不近。
3:这些接触的domain和组蛋白修饰(影响长距离互作 long range contact patten)的关系
从之前Encode 数据库上面看GM12878的组蛋白修饰数据,(H3K36me3, H3K27me3, H3K4me1, H3K4me2, H3K4me3, H3K9me3, H3K79me2, H4K20me1)把它们和这个3D基因结构相结合。此外,还想探究组蛋白修饰之间的相互关系。但是结果发现,有一些TAD和组蛋白修饰是有关系的,在文章的fig2a中,有的TAD上H3K36me3的修饰富集,有的TAD上面的H3K27me3的修饰是富集的,而这两个组蛋白修饰和转录活性是相关的,一个和转录激活相关,一个转录抑制相关。
4:根据组蛋白修饰发现有6个subcompartment
根据远距离相互作用的patten,他们采取了手工注释还有3种无监督聚类的方法(k-mer HMM,hierarcical),都有相类似的结果。
接下来为了探究这些远距离的相互作用的修饰,首先在低分辨率(1Mb)情况下,找到了A、B compartment,然后在25kb的基础上,发现了至少5个subcompartment,但是发现每个subcompartment的间隔是300kb,他们通过分析subcompartment的相关性。发现有2个subcompartment和A compartment相关。而且这两个subcompartment的基因密度比较高,有很多转录激活的组蛋白修饰。比如说(H3K36me3,H3K79me2,K3K27ac,H3K4me1).而且在细胞复制的进程中,A1和A2都存在,但是A1在S期的早期就结束了,但是A2在S期的中期。而且A2比A1的H3K9me3的组蛋白信号更强。
subcompartment及其相关性
subcompartment A enrich transcript activation histone marker
其他的三个subcompartment(subB1,2,3)和Bcompartment有关,subB1有高的H3K27me3 但是低的H3K36me3,说明和兼性异染色质有关系,而且在repliseq的数据中,可以看到,它在S期的中期活跃。但是对于SubB2,3来说,他们在S期都不活跃,直到S期结束之后才慢慢活跃起来。而且,SubB2在着丝粒染色质上有富集(3.8倍,而且在核纤层和核染色质相关的结构域富集),SubB3只在核纤层处富集。
Fig2D repliseq&ChIP-seq
他们在19号染色体上面看到了第6种subcompartment,成为SubB4,他们发现SubB4上面富集了很多KRAB-ZNF家族的基因,而且同时富集了活跃的染色质标记H3K36me3, 还有异染色质标记H3K9me3,H4K20me3
Fig2F chr19上观察到第6种subcompartment
5:大约有1000个peak标记了染色质的loop
通过使用算法来寻找染色质环的位置,找寻的思路是这些基因对之间的相互作用要比这些这些基因对和临近的基因对相互作用要高,这种在Hi-C的热图上来看的话就是说有着更高的接触频率(像素颜色更深)。这种peak,就是下图蓝色圈出来的peak,反应的就是染色体的loop,而peak的边界区域就是染色质loop的边界。(PS:其实寻找peak应该是以全基因组的为背景值去寻找的,但是因为全基因组的接触频率差异比较大,所以用了局部的背景信号)
Fig3A different chromatin loop
在GM12878的细胞5KB分辨率的Hi-C的数据中,我们发现了9448个peak,这些peak与总共12,903个不同的peak位点相关(一些peak位点与多个peak相关)。 绝大多数peak(98%)反映了相距<2 Mb的基因座之间的环。而且这些在所有的Hi-C数据中得到了重复,在最初和重复的数据中,我们发现了8054个和7484个peak,5403个重复.(这种peak的结果的差异是因为算法的标准),同样在dilution Hi-C的数据里看,他们同样的算法找到了3073个peak,而且65%的数据有重合。 Fig3B
为了证明他们找的peak真实可信,他们做3D-FISH的实验验证loop,实验组是L1,L2,对照组是L3,他们发现,他们之间的基因间隔都是想的相等的,但是在Hi-C热图上看,L1和L2的距离要比L2和L3的距离要近,而且从实验来看也得到了验证。
image.png
对于之前发表的低分辨率的Hi-C数据,作者开发出来了一种APA的算法(aggregate peak analysis)和之前的数据一比较,显示出了极好相关性。
Fig3D 数据重复的相关性
总的来说,这些重复性很好的peak数据,证明在我们的实验中观察到的峰不能是甲醛交联过程的副产物。
6:在人的不同细胞系中观察到的peak和进化的关系
作者把GM12878的数据和其他的7个人的细胞系的数据进行了比较(因为不同细胞系之间的数据差异大,他们找到的peak的数量从2643到8040)APA算法分析之后,显示了这些peak和之前Hi-C的结果一致(in IMR90, HMEC, HUVEC, and NHEK)此外,他们发现peak在细胞类型中通常是保守的。而且55%-75%的peak在GM12878的数据中都可以找得到。
Fig4A peak的保守型
比较完了不同人的细胞系之间的数据,接下来比较不同种(如人和小鼠)之间的结果,在小鼠的CH12-LX 小鼠B淋巴细胞中,找到了2927个高度保守的domain和3331个peak,和人的结果一比较,发现50%的domain 的45%的peak是和人的GM12878的数据是一样的,说明了人和小鼠的高级构象结构有类似!
Fig4B-E 人和老鼠的Hi-C数据比较,CED人和小鼠的保守区的3D结构比较,C是25kb,DE是10kb分辨率
7:染色质的loop锚定在启动子上和基因的激活有关系
很多数据都表明染色质的loop是和基因的调控有关系的。首先他们发现了有一些peak(2854/9448)的基因位置一端在启动子区域上,一端在增强子上,这些peak包括经典的MYC,alpha-globin等。其次,基因的启动子在loop上的表达比启动子不在loop上的表达高(6倍差) Fig5A左边是loop的一端有promoter,右边是有promoter的基础上有enhancer此外,整合了RNA表达的数据,高表达的基因的启动子区域和细胞特异性peak的基因位置区重合。例如,细胞特异性loop基因和SELL基因启动子区域重合,但是这个loop在GM12878里有,但是在IMR90细胞里没有。
Fig5B 细胞特异性loop在全基因组范围内,作者发现了557个GM12878特有的loop,510个IMR90细胞特有的loop,这些peak重合的94个基因在IMR90里面下调。3个在GM12878里面下调。 Fig5c loop在GM12878个第二种细胞里面的个数和基因上下调的关系
偶然情况下,基因的激活和细胞特异性的peak有关系,图5D 说了一个例子ADAMTS1基因,编码了成纤维转移蛋白,这个基因在IMR90里面表达,它的promoter和6个loop有关系,但是在GM12878里面,只和2个loop有关系,但是不表达。在IMR90细胞里很多peak会和其他的peak形成传递峰,说明,ADAMTS1基因的promoter可能是单个hub形式存在。这些结果和之前文献报道是一致的。 Fig5D 特异性的峰和基因表达情况
8:这些loop经常划定了domain的边界
大部分peak(38%)与contract的domain的边界一致 - 也就是说,peak位点位于domain的边界处。相反,很大一部分domain(39%)的角落有peak。 Fig6A在某些情况下,一些可变的loop domain存在偏移(由peak loci L1-L2,L2-L3),L3和L1也可形成一个peak,说明这三个基因座可以同时在一个单独的空间位置。但是,也有很多peak不会偏移,说明很多loci没有互作。图4B种,显示出了这两种类型的loop Fig6B chr4上两种类型都有
9:绝大部分的loop和汇聚了相向的CTCF motif
接下来,作者想知道这些peak是不是和特殊的蛋白有联系,他么从ENCODE数据库上找了GM12878的ChIP-seq数据,发现86%的loci的边界上富集了CTCF蛋白和cohesin的亚基RAD21(86%),SMC3(87%)。说明了这些蛋白介导了loop的形成,因为这些loop和domain的形成有关系,这个发现也说明了,CTCF限制和调控domain的形成。
Fig6C peak loci 和蛋白质富集
他么还发现,绝大多数的peak loci有一些特殊的DNA序列包含了CTCF序列,CTCF,RAD21,SMC3都结合在上面。然后这些特殊的peak,loci 都有特殊的CTCF motif的“锚定点”。
如果CTCF的位置是随机方向的,这4种类型出现的几率是类似的。但是我们观察到绝倒数多motif的方向是相对的,而且在不同的细胞系中都得到同样的结果,证明的相对的CTCF是形成loop所必须的。
这种观察到的现象,对于多种CTCF 结合的motif分析到底是那种motif起作用是非常重要的。此外,通过和ChIA-PET数据进行比较,发现结果一致。
10:在小鼠中CTCF结合的SINEB2 重复显示方向的偏好性
在小鼠中,大概有7%的peak anchor 有SINEB2 (预测有功能,CTCF结合通过该元件的逆转录,其共有序列中含有CTCF基序,已在先前的研究中得到证实。)的重复包含了CTCF motif。在SINEB2元件的peak锚处的CTCF基序显示出在整个基因组中看到的朝向收敛的偏向方向。说明在绝大部分loop中CTCF在SINB2处是收敛的。
11:二倍体的Hi-C图谱显示了同源特异性的特征,包括一些印记特异性的loop和一些包括X染色体失活的loop
因为很多reads存在重叠的SNP,所以用了GM12878的阶段性的打他(phasing dara)去标记特殊同源染色质。利用这些东西,我们可以看父源和母源的染色体Hi-C数据 Fig7A 对于常染色体来说,父源和母源的同源染色体有类似的染色体间和染色体内接触特征。一个染色体间差异值得注意:染色体6和11的父本同源物之间的接触频率升高,这与融合染色体6p端粒的chr11q:73.5 Mb和所有远端基因座(超过60 Mb)的不平衡易位相一致。这些类型说明,染色质有1.2%-5.6%的概率会出现。我们用Giemsa染色对100个GM12878细胞进行了核型分析,发现3个异常染色体。这些异位的染色质来自父源,不能通过普通的染色质核型方法定 Fig7BFigS7C-F 异位染色体
此外,同时在印记基因座上也发现了一些不同loop的结构。比如说,H19/ Igf2在11号染色体上和基因印记相关,H19 region loop在母系的染色质上, Igf2 region 在父亲的染色质上 图7C
在GM12878中,父系X染色体通常是不活跃的,被分成两个大区域。
在活跃的母体X中没有看到这些“超级域”(图7D)。 Fig7D
有趣的是,超级域之间的边界(ChrX:115 Mb±500 kb)位于Xq中部附近的宏观卫星重复DXZ4(ChrX:114,867,433-114,919,088)附近。 DXZ4是富含CpG的串联重复序列,在灵长类动物和猴子中保守,并编码长的非编码RNA。在雄性和活性X中,DXZ4是异染色的,高甲基化的并且不结合CTCF。在非活性X上,DXZ4是常染色的,低甲基化的,并且与CTCF结合。已假设DXZ4在X失活期间在重组染色质中起作用。
像大多数其他循环的peak值位置一样,几乎所有的超级循环(superloop)锚都绑定CTCF(24个中的23个)。最常与suoerloop关联的六个锚定区域很大(高达200kb)。其中四个锚定区包含整个长非编码RNA(lncrna)基因:loc550643、xist、dxz4和firre。三个(loc550643、dxz4和firre)包含CTCF结合的串联重复序列,这些重复序列只在非活性同系物上结合CTCF。
讨论
1:首先利用原位Hi-C,可以达到更好的分辨率,此外,还有很多contract domain比较小。存在远距离的互作。而且domain存在6种不同的subcompartment。domain在物种见保守。关于loop,发现了很多loop是比较小的(<2M)而且和细胞的类型有关。
2:此外,90%以上的loop是和方向性有关。CTCF的方向是相对的。另一方面,我们观察到的结果比TAD(1Mb)(Dixon等,2012)小得多,这些TAD基于较低分辨率的图谱在人和小鼠中报道过。这是因为检测TAD涉及domain boundary的检测。利用更高分辨率的数据,可以检测超出先前地图中所见的其他boundary。
3:他们在比较loop数据的时候,是拿loop和矩阵结果和local的背景去比而不是去和全基因组去比。
4:此外,想通过Hi-C数据和X染色体失活,这些边界和LncRNA,结果是可以找得到一些特异的印记loop
5:还检测到远程超级loop的网络结构,其中最强的是锚定在含有lncRNA基因(loc550643,XIST,DXZ4和FIRRE)的位置。除XIST外,所有这些lncRNA都含有CTCF结合的串联重复序列,仅在失活的X染色体上结合CTCF。