FANTOM5技术之定位增强子
image.png我们来看cell上这篇文章,和昨天介绍的FANTOM项目研究目的和方法几乎一样。
通过这篇文章我们来看下他们是如何研究增强子表达和肿瘤之间的作用机制的~
FANTOM5项目研发出了一种捕获技术,当DNA开始转录合成RNA时,就能够立马捕获RNA,从而精确地定位启动子。这项技术也能够定位增强子,因为这些调控DNA也会被转录为RNA。
研究背景
每个细胞组分的生物学功能都是由如“俄罗斯套娃”样的多级基因调控层次控制的,包括转录因子-启动子互作、增强子激活、DNA甲基化、microRNA介导的调控、翻译和翻译后修饰。在癌细胞中,调控网络常常被共同导致癌症表型的分子畸变重构。例如,体细胞突变可以修饰调控网络中反式和顺式元件的功能,从而赋予与肿瘤发生相关的细胞行为。大型患者队列TCGA研究系统地表征了各种癌症类型的不同水平的关键分子改变,为致癌机制和潜在治疗方法提供了前所未有的见解。
重构癌症调控网络远未完成,尤其是增强子部分。增强子是重要的非编码DNA元件,其与它们的靶启动子在空间上相互作用以调控下游基因。作为主要的细胞发育调控元件,增强子在致癌过程中也发挥关键作用。目前,仍缺乏癌症细胞全局的活性增强子表达分析,这可能是由于大样本量高通量测序(如chip-seq)技术上的难度造成的。
为什么用RNA-seq检测增强子表达:非活性增强子通常由未修饰的核小体组成,因此不能被转录因子或聚合酶接触(接近)。当增强子被激活以响应信号传导时,其局部染色质首先被修饰(通常由H3K4Me1修饰)并变得松散,使得增强子可被转录因子和RNA聚合酶接触。当结合的转录因子完全激活增强子时,通常被H3K27Ac重新标记,局部染色质完全开放,募集RNA聚合酶在两个方向启动转录。因此,增强子表达水平代表增强子活化的基本特征,可以通过RNA-seq检测大部分增强子的表达。
注:CAGE-seq(cap analysis of gene expression),结合mRNA加帽位点鉴定和高通量测序的手段,可以高通量地鉴定整个细胞内mRNA的转录起始位点,从而获得准确的启动子信息和5’UTR信息。
研究目的
(1)描述癌症中增强子表达的全局模式;
(2)了解增强子激活与其它基因组畸变以及相关基础机制的关系;
(3)鉴定定关键增强子并探索其潜在的临床意义。
研究路线
路线研究结果
增强子筛选及表达分析流程1.人类癌症中增强子表达概况
来自33种癌症的8,928个癌症样本TCGA RNA-seq表达数据,共计鉴定到15,808个增强子。每种癌症类型>10%样本平均检测到4,591种增强子。在25种具有足够样本量以及随访时间的癌症类型中,通过Cox回归分析与疾病生存期相关的活性增强子,结果表明许多活性表达的增强子与预后相关。肝脏肝细胞癌(LIHC)具有最低的增强子表达水平(〜100RPM),而胸腺瘤(THYM)增强子表达水平最高(〜240RPM)。与相同患者的正常组织相比,大多数癌症类型的肿瘤组织的增强子表达水平升高,即增强子活化。
不同癌症活性增强子的表达水平以及与正常对照样本间的比较
2. 肿瘤中增强子活化与肿瘤非整倍性(aneuploidy)正相关
体细胞拷贝数改变(Somatic copy-number alteration, SCNA)和点突变是2种影响癌症基因组稳定性的最常见的突变。结合来自Affymetrix SNP6.0的非整倍体数据(SCNA)以及全外显子组测序得到沉默(silent)体细胞突变(不引起氨基酸替换)数据(TMB,突变负荷/载量),与增强子活化数据(RPM)联合分析,表明大多数癌症类型(19/25)中非整倍体水平与增强子活化水平呈显著正相关。相反,沉默点突变则没有相关性或只有轻微的负相关性。
SCNA / silent TMB vs. 增强子表达水平RPM注:橙色或蓝色表示相关系数Spearman’s correlation coefficient (rho)检验为显著的。
对肿瘤样本的1500个增强子表达数据进行consensus聚类分析,得到3种亚类(簇):C1、C2和C3,并且不受疾病类型驱动。3种亚类的肿瘤样本增强子表达水平均高于其正常样本,其中C2亚类的增强子表达水平最高。如前所述,SCNA与增强子表达水平正相关,故而C2亚类中受SCNA的影响比较大,SCNA影响数千基因表达。对于silent体细胞突变负荷TMB,C1>C2>C3。增强子激活与基因组不稳定性的相关性可以概括为下图:C1亚类富含具有高突变负荷和低非整倍性的样品;C2亚类富含具有较高突变负荷和高非整倍性的样品;C3为“normallike”,接近于正常组织,具有低突变负荷和低非整倍性。癌症类型内和癌症类型间的分析都表明SCNAs是与增强子激活正相关的突变形式,而不是silent点突变。
根据增强子表达数据对肿瘤样本进行consensus聚类分析 不同亚类间的增强子表达水平、SCNA和silent突变负荷比较3. 以“染色质状态”为中心的增强子激活、SCNAs和点突变的互作模型
为什么SCNAs和点突变与癌症中的增强子激活相关联?据报道,人类基因组染色质空间组织的变化是整个基因组体细胞突变率变化的主要决定因素。低突变率是开放染色质DNA的一个特征,因为突变可通过DNA修复机制获得修复;同时,染色质开放恰好是增强子活化的先决条件。激活后,增强子与目标DNA成环,并与其互作,产生DNA-DNA拓扑结构上的互作;当发生断裂时,远程DNA-DNA物理上接触增加了部分1D-序列相距很远的位点接触和发生重排的机率,由此产生结构变异——这揭示了SCNAs和点突变分别与增强子激活间差异相关性的分子机制,是建立在染色质开放性差异的基础上。在该模型中,紧凑染色质有利于点突变并保持增强子沉默;一旦染色质打开,增强子被激活的可能性增加。同时,由于展开的DNA被拉长了1-2个数量级,所以远程DNA-DNA互作发生的可能性增加,同时增加了DNA重排(SCNA)的机会。ATAC-seq和H3K27ac的ChIP-seq数据标识开放染色质(open chromatin),用H3K9me2和H3K9me3标识封闭染色质(closed chromatin),开放和封闭染色质的双链断裂(DSB,SCNA断裂点)率和点突变率的确呈现相反趋势。
以“染色质状态”为中心的模型根据上述模型,开放染色质中的远程DNA-DNA互作(Hi-C互作),至少在一定程度上解释了增强子激活和不同基因组区域中SCNAs的正相关性。为了测试这种可能性,作者检测了人基因组的双链断裂(DSB)率最高的500个10-kb片段,发现40%(n = 204)富集于Hi-C鉴定到的Loop区域。同时,增强子也倾向与loop区域重叠。下图提供了一个简单而合理的假设模型,虽然仅试验性地解释了增强子激活与SCNAs和突变的差异关联。
开放染色质促进DNA结构重排的假设模型4. 系统性鉴定与癌症基因互作的具有因果关系的增强子
整合增强子和mRNA表达数据,通过共表达分析可获得增强子的候选靶基因。对于共表达的特定增强子-基因组合,至少存在3种可能的关系模型:(1)因果关系,增强子表达的变化引起基因的差异表达;(2)reactive关系,基因位于增强子的上游;(3)共响应关系,增强子和基因都响应其它分子变化。本文中以第一种关系进行探讨,引入eQTL进行分析。基本原理如下:影响增强子活性的单核苷酸多态性(SNP)会影响增强子下游靶基因的表达,由此使得SNP(或邻近连锁遗传的SNP)成为目标基因的eQTL位点;对于这样的共表达增强子-基因对,使用Hi-C数据来评估该因果关系是否为直接调控。
共表达增强子与基因之间的关系模型以及鉴定具有因果关系的增强子-基因互作的流程根据该方法,鉴定了65个符合条件的互作,涉及49个增强子和47个癌症基因,并绘制了预测的增强子-基因调控网络。其中22个和8个癌症基因分别注释为CGC数据库中的癌基因(oncogene)和肿瘤抑制基因(TSG),表明增强子更倾向于调控癌基因。根据CGC注释,这30个基因位于不同的癌症hallmarks基因集中,富集于增殖和转移。这些增强子-基因共表达富集于直接调控和因果调控。总之,这些结果提供了增强子激活可能有助于肿瘤发展的途径的见解。
增强子-基因共表达网络5. 靶向临床上可操作基因的增强子具有潜在的临床相关性
增强子作为预后标志物:作者以chr22(chr22:50980817-50981280,下文简称增强子22)和其推断的目标基因SYK为例,详细分析了增强子如何调控驱动基因从而作为预后标志物。ENCODE ChIP-seq数据集注释到增强子22区域内或其侧翼富集大量蛋白质-DNA互作peak。3个连锁遗传的SNP位于增强子22中,这3个SNP都是SYK基因的eQTL(基因型与mRNA或者蛋白表达水平相关)。SYK是一种致癌驱动基因,在多种类型的晚期癌症中被激活,并且与临床预后不良相关。患者生存时间分析进一步支持了增强子22作为几种癌症类型的不良预后的标志物。由于eQTL、RNA-seq和蛋白质数据是从独立平台生成的,并且在多个来源组织中观察到相关性,所以这些结果提供了增强子22是预后标志物的证据,主要通过对其下游基因SYK的调控作用实现。
不同癌症中增强子22的K-M生存曲线分析增强子作为免疫治疗反应的预测标志物:PD-L1在癌症免于免疫系统攻击中扮演着重要角色,因此一直是免疫治疗“检查点抑制”的主要靶标,尤其是肺癌和黑色素瘤的治疗,下面以距PD-L1约140kb的增强子(chr9:5580709-5581016,下文称为增强子9)为例进行阐述。作者发现多种癌症类型中观察到PD-L1 mRNA和增强子9之间的强共表达;在CCLE(癌症细胞系百科全书数据库)130个肺癌细胞系中也证实了增强子9与PD-L1共表达;PD-L1 eQTL位于增强子的邻近区域,表明增强子是PD-L1的上游调控元件;人类细胞系的Hi-C数据集进一步证实了PD-L1基因和增强子9之间的直接相互作用。ENCODE项目中调查的161个转录因子中,NF-kB是唯一注释到增强子9的一个转录因子;ChIP-seq数据显示NF-kB强烈结合在增强子9上以及PD-L1启动子的p65结合基序上,表明NF-kB参与增强子/ PD-L1相互作用。同时,最近有研究报道,NF-kB二聚体对于PD-L1的激活是必不可少的。利用CRISPR-Cas9敲除增强子9,获得稳定的增强子9纯合缺失的肺癌A549细胞系。增强子9的敲除在mRNA和蛋白质水平都显著降低PDL1表达,掩盖了IFN-g(活化的NF-kB)诱导PD-L1表达的效应。这些结果表明,NF-kB介导的增强子-启动子相互作用的PD-L1活化模型,强调了增强子调节关键治疗靶点的潜在重要方式。
增强子9调控免疫治疗靶点PD-L1表达点击阅读原文