公共数据挖掘Science相关 杂

2021-02-15--文献阅读笔记--eRNA图谱

2021-02-19  本文已影响0人  FFwizard

2020-10-01--cancer cell

A High-Resolution Map of Human Enhancer RNA Loci Characterizes Super-#enhancer Activities in Cancer

一、结果

1、核心观点:eRNA位置的高分辨率图谱表明增强子在癌症中显著活化

亮点:

①超级增强子包含离散的eRNA基因loci,其特征是具有尖锐的eRNA峰
②这种eRNA基因座的表达受动态、定位良好的核小体调控
③eRNA信号对基因表达以外的定量序列具有解释力
④超增强子的活性在癌症中受到不同机制的失调

二、摘要

eRNA活性可以从eRNA信号值判断,信号值测定需要知道eRNA具体的染色体位置。作者整合了大队列的RNA测序数据来定义super-enhancer区域,super-enhancer包括许多游离的eRNA loci,特征为尖锐的eRNA表达峰。这些 eRNA loci 受保守的,定位良好的核小体调控,并且在癌症中常常失调。

三、介绍

①H3K4me1和H3K27ac的染色质修饰是增强子鉴定的有效标记;
‘‘stretch-enhancer’’ and ‘‘su-per-enhancer’’ 指代eRNA显著活化的大的基因区域,chip-seq显示通常超过10Kb,常用eRNA标记来表示,如H3K27ac,它们往往受到许多转录因子(TF)的调控;
②增强子在激活时,打开局部染色质并暴露DNA基序以吸引TF,从而进一步招募RNA聚合酶(通常为RNA Pol II)产生增强子RNA(ERNA)
③FANTOM项目--CAGE-defined enhancers--鉴定了约65000个位点;然而应用到TCGA上确只鉴定出15000个,限制了eRNA的应用,同时CAGE-seq不能很容易地应用于大量的肿瘤样本,如TCGA;
④为了更全面的注释eRNA,作者注意到了super-enhancer,相比于传统的eNRA。super-enhancer覆盖了调控信号最为丰富的370 Mb DNA序列;super-enhancer显示出更强的RNA poll II结合信号,在没有基于CAGE-seq注释的情况下也能被 TCGA mRNA seqdata检测到;super-enhancer常>10Kb,而经典的enhancer常为200bp;因此super-enhancer的转录噪声混淆了真正的增强子激活信号;最后这些super-enhancer区域已使用一致的H3K27ac芯片序列图谱在多种组织和细胞类型标记出来。
⑤我们假设,通过结合许多个体的RNA-seq数据,可以解析超级基因组中精确的eRNA位点样本。这个这是因为eRNA阅读与真正的增强子活性相关,反复累积,而背景转录噪声往往随机发生。

四、结果

1、频繁的eRNA表达峰在super-enhancer中

①我们首先关注了核心super-enhancer,5MB,>20(86)个组织或细胞中被一致的鉴定出来
②为了验证RNA Pol Ⅱ结合活性,我们检测了它们的eRNAs与H3K27ac的结合(140个cell line),>80%正相关
③按每个癌症种类,整合RNA-seq数据,并于29种核小体图谱数据相结合,使用GTEx RNA-seq数据验证模式和FANTOM-CAGE-seq增强子数据推断 (鉴定eRNA loci)的基本原理
④我们鉴定出了>300000个eRNA位点的精细图谱,建立了一个泛癌eRNA图谱;
⑤通过一个肿瘤对免疫治疗反应的案例研究,我们证明了这种图谱在解释复杂的基因型-表型关系中用于eRNA分析的能力
⑥我们使用32种癌症类型的整合RNA序列数据集计算了5 Mb核心超级增强子集中所有串联10 bp DNA窗口的eRNA表达水平,我们注意到在超级增强子bodie上有高度反复出现的尖锐eRNA表达峰。如670bp区域所示,这是近一半(组织/细胞类型()中最一致确定的超级增强区域之一,也是癌症类型中表达最多的区域之一;
⑦eRNA表达峰的高度具有一致性,导致32中癌症可以据此划分为四个聚类,见图B。
⑧为了系统地鉴定这种eRNA峰,我们搜索了1531个核心超增强子在所有可能的200bp窗口中的局部最大表达水平,并且鉴定了至少在三个癌症中重复的29828个eRNA表达峰,发现绝大多数eRNA峰的长度只有100 bp,然后很快下降到基线水平


image.png image.png
image.png

⑨此外,我们在这些峰的主体或边界上未检测到splicing motifs的富集,这与在内含子-外显子连接上观察到的强信号相反。我们在两条链的eRNA峰的任何一个边界上都观察到一个强信号tandemTF结合motif(图3D);支持它们是由转录起始而非RNA剪接引起。


image.png
⑩这些结果表明,在超级增强子中存在生物学意义上的有意义的eRNA位点,它们产生了离散的、反复出现的、短的eRNA,RNA-seq很容易检测到
2、eRNA的表达受位置良好的核小体调控

①我们观察到的eRNA峰短至100 bp,这一长度接近于由典型核小体(染色质组织单位)占据的147 bp DNA单位。由于核小体动力学是TF与DNA基序结合的一个关键特征,我们推测超级增强子中的eRNA峰是由核小体水平上染色质组织的变化形成的,这与TF结合激活的超级增强子有关。
②激活后,核小体被分解,使motifs可用于TF识别,然后启动转录并产生观察到的eRNA。激活后,从TFs释放的癌基因序列很快就会被核小体重新要求保护。这些核小体的“状态开关”很可能释放出一单位147bp的DNA,从而解释了eRNA峰的短(100bp)和尖的形状(提问:RNA测序会检测到DNA吗?)
③我们研究的超级增强子是组织特异性的,因此,在大多数受检组织中,核小体应该占据eRNA位点,因此在检测组织中核小体结合信号时可以检测到位置良好的核小体。
④当super-enhancer被激活时,占据eRNA位点的核小体必须被TF替代,然而TF需要与侵入的核小体竞争结合位点,核小体的周期受多种因素调控,如消化时间、复制阶段、盐浓度等;由于核小体变化周期短暂,这种核小体信号难以被检测。
⑤为了验证这一假设,我们收集了MNase-seq(消化时间)数据,发现核小体占有率在各个组织细胞中是类似的,说明在宏观进化中,这种核小体占有率是保守的
⑥核小体的占有率可以用MNase-seq信号来表示。

3、超级增强子的eRNA基因座的全局识别

①两个关键信息:一个超级增强子包含许多短于100bp的eRNA;这些eRNA位点往往与定位良好的核小体重叠
②鉴定了140bp窗口内的最大的eRNA RPKM,鉴定了超过400万的eRNA峰,然后计算了每个位置的核小体信号(NMase-seq),用PCA算法分析具有最大MNase seq信号的位置与本地最大eRNA RPKMs的位置之间的距离,;PC1有效地反映了侧翼140bp区域的平均MNase-seq信号强度;PC2和PC3代表了核小体位于eRNA表达峰附近的阶段;PC2和PC3将这400万个eRNA分为三类;PC2代表核小体在峰值位置上游或下游的相对占有率(图5B和5C),而阴性PC3则表明核小体占有率和表达信号之间的同步性(图5C),负PC3是一个良好的指标表明eRNA的表达峰与核小体占有率(mean mapped reads)重合在了一起;相比之下,PC1强调的是核小体定位的重要性。


image.png

③PC3与该区域确定为super-enhancer的数量成一个 负相关


image.png
④基于eRNA基因座的排列分析,建立了两个识别eRNA的标准:1)与位置良好的核小体一致(PC3<0)和;2)具有尖锐的eRNA表达峰(相对峰高>0.05);通过这两个标准,识别了30万个eRNA loci,每个TCGA癌症识别到了50000-120000个eRNA loci。说明eRNA具有组织特异性。在超级增强子区域中识别到了更多的这样的位点,与super-enhancer RNA pol II芯片信号一致。
⑤例如22号染色体上,在基因组相邻区域,eRNA loci密集区域,eRNA共表达和异质性(不共表达)广泛存在
⑥我们通过以下几方面来验证eRNA loci 的准确性

1)分析了eRNA loci 的平均CAGE-seq signal,Cage-seq在Watson或Crick链的eRNA位点上游60 bp处检测到增强子转录起始信号的尖峰
2)在15 paired-end MNase-seq samples中,超过60%的eRNA位点被定位良好的核小体占据(≥5个样本)

4、eRNA的表达为临床表型提供了额外的定量能力

①首先,根据最近一项基于CAGE的研究,与mRNAs(<5%)相比,eRNAs(>30%)具有更高的细胞类型特异性。肿瘤常含有不同的细胞组织类型,因此本研究中检验到的eRNA峰,主要局限于少数癌症类型。
②eRNA水平可能保留更多的细胞类型特异性信号。因此,对于由一种或几种特定细胞类型决定的复杂性状,如免疫治疗反应和内分泌抵抗,差异表达的eRNA信号可以在数量上合理地表达差异表达的mRNAs。
③如在28个对抗-PD1免疫疗法有差异反应的黑色素瘤肿瘤中,这种反应需要T细胞、肿瘤细胞和微环境中的其他细胞阵列之间的相互作用,我们发现20000个编码基因中没有一个显示出显著的差异表达,但是我们发现了164个有差异的eRNA,他们全部都被活化,虽然分布在不同基因位置,我们通过eQTLs鉴定了他们的36个目标gene,通过gsea分析,富集到了不竭性CD8+T细胞基因虾条和过度表达的扩张性CD8+T细胞。表明这些eRNA对于CD8+细胞十分重要。为了进一步验证,我们研究了这164个eRNA与其它免疫细胞相关的基因集之间的相关性,同时这些GSEA基因集与患者预后相关

5、eRNA loci 失调,在癌症中表现出临床相关

①肿瘤相对于正常组织,super-enhancer显著激活
②eRNA位点的很大一部分受焦点拷贝数扩增的驱动因素影响,比受驱动因素缺失影响的可能性高4倍(图7B),这与蛋白编码基因结果相反。合并多种癌症复杂病例时,该种模式也成立。


image.png

③我们发现4000erna基因座至少包含一个TCGA项目中使用的人类甲基化450k阵列的CpG甲基化探针,在这些探针中,1187个(>30%)CpG二核苷酸在DNA甲基化水平上显示出显著变化(图7E;>20%绝对变化;FDR<0.01;配对t检验)


image.png
④差异表达的eRNA中,高甲基化区域的大多数eRNA被激活,低甲基化区域的eRNA大多数被抑制。这表明高甲基化是肿瘤发生过程中super-enhancer被激活的一个重要指标。
⑤我们建立了一个网站存放了
1)超级增强子、核心增强子的注释信息学;TCGA、GTEx、CCLE cell line的eRNA表达举证(RPKM);

2)与免疫治疗反应相关的super-enhancer eRNA loci 和 gene;
3)TCGA数据集中超增强子转录单位与临床结果、体细胞拷贝数改变和CpG甲基化的关系;
4)在>50个ChIA PET或HiC数据集中的3D eRNA位点/启动子相互作用(Wang等人,2018),导致eRNA/靶基因共表达阳性的强烈富集(图S7E–S7H)
5)我们还推断了额外的super-enhancer区域。

五、讨论

①CAGE序列定义的增强子有效但是很局限,主要因为其>10Kb
②我们通过整合(动态核小体)和来源于(整合过的RNA-seq数据的eRNA表达信号)来识别eRNA loci。其中super -enhancer 具有组织特异性是关键。
③定位良好的核小体具有防止基序接触和避免增强子激活的功能,在大多数组织中,超级增强子是沉默的,一个位置良好的核小体是必要的。这就是为什么我们可以观察到定位良好的核小体与尖锐的eRNA转录峰相吻合。这种定位良好的核小体是高度保守的,表明其在维持超级增强子转录结构中起着重要的作用。

六、方法详细信息

1、超增强子注释

先获取先前所研究的super-enhancer (Hnisz et al.,2013).(hg19所注释得来);我们从GRCH37 ensembl获取所有外显子注释信息,使用R软件包“biomaRt”从上述超增强子区域移除这些外显子和它们的100 bp序列,以避免已知基因的转录信号污染。然后我们获得了人类基因组基准(Zook等人,2014)排除了对于突变调用或短读映射未明确的基因组区域。只有位于人类基因组基准(benchmark)区域的super-enhancer才用于后续的eRNA表达分析。鉴定出65728super-enhancer,1531个核心-super-enhancer(多个组织中均有表达)

2、eRNA与ChIP-seq H3K27ac信号分析

我们从ENCODE和Cistrome 获取了H3K27ac数据;从ENCODE
和CCLE获取相应的RNA-seq数据。由于Cistrome是用的Hg38注释的,因此我们使用UCSC-liftOver将1531个超级增强子区域从hg19转化为Hg38;
②对于ENCODE ChIP seq样本,每个超级增强子上的H3K27ac水平被定义为在ENCODE bigwig文件中提供的对照的平均折叠变化。我们使用编码RNA序列bigwig文件中超级增强子区域的平均信号作为eRNA表达的读数。
③对于cistrome H3K27ac数据集。bam文件从CCLE获取,每1531个区域的RPM被计算为其eRNA表达的强度。

3、超级增强子eRNA表达谱
4、超级增强子eRNA峰的motif发现和染色质组织

①我们使用具有默认设置的FIMO软件识别29828个核心超增强子峰两侧200 bp区域中由单核苷酸人类基序数据库注释的所有DNA基序,FDR<0.01的FIMO输出被认为是有效的motif。

十、需要掌握的知识

1、GTEx eQTL
GTEx是第一个收集了多个人体器官mRNA测序的数据库
DNA改变是怎么影响mRNA?这一过程被称为Expression quantitative trait loci(eQTL) 分析,目的在于得到单个DNA突变与单个基因表达量之间的相关性。与单个基因mRNA表达量相关的DNA突变,就被称为eQTL。
我们首先通过全基因组测序获得每个个体的DNA全序,然后以同种族的其他个体作为参照,标记出该个体所有的DNA变异位点, 称为SNP位点。同时,我们通过全基因组mRNA表达量测序得到该个体的特定组织样本中的基因表达量。以全部DNA变异位点为自变量,轮流以每种mRNA表达量为因变量,用大量的个体数据做样本进行线性回归,就可以得到每一个SNP位点和每一个mRNA表达量之间的关系。
SNP--单核苷酸多态性--主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上

上一篇下一篇

猜你喜欢

热点阅读