BETA包,RNA-seq和ChIP-seq联合分析的利器
BETA package简介
1. BETA(Binding and expression target analysis)package, 是RNA-seq和ChIP-seq联合分析的工具,集成了ChIP-seq的转录因子或染色质调控因子和差异基因表达数据,从而推断出直接的靶基因。
BETA预测的是direct target,与target相比有所不同。
如果只做RNA-seq,可以得到target genes,但是不知道这些target genes是直接的还是间接的,有可能是通过直接影响之后改变的间接的genes。而同时做ChIP-seq,就可以知道direct target genes。可以看到通过转录因子影响之后直接的靶基因。
2. BETA适用于哺乳动物中的人或者老鼠转录因子的分析。在哺乳动物实验系统中,基因表达变化和转录因子结合之间的一致性通常很难解释。
- 首先,因子结合位点和靶基因通常缺乏一对一的关系。相同的因子可以结合在近端启动子也可以在下游数百千碱基之间的任何位置来调控基因的表达。或者,同一个结合位点可以通过不同细胞亚群中不同启动子的相互作用来调节多个基因。
- 第二,并不是在ChIP-seq实验中发现的所有因子结合位点都具有功能。要解决这些问题,需要对基因调控做出一般性的工作假设,并结合对现有ChIP-seq和转录组数据的可靠统计分析。
BETA功能分析
BETA通过三个命令,来实现明显的功能分析。它的三个命令分别是BETA-basic、BETA-plus和BETA-minus。
- BETA-basic可用于预测某个因子是否具有激活或抑制功能,并检测直接的靶基因;
- BETA-plus可用于预测某个因子是否具有激活或抑制功能,是否可以检测直接靶基因,可以分析目标区域的motif;
- 对于BETA-basic和BETA-plus,都需要结合和差异表达数据,而当只有结合数据可用于预测靶基因时,则使用BETA-minus。
功能1: 激活或抑制功能的预测
首先,把RNA-seq获得的差异基因按照表达模式分成了上调、下调和不变三个组。再把ChIP-seq对应的基因按照regulatory/potential score进行从高到低的排序。然后分别做上调,下调和不变基因的累计分布曲线。
什么是regulatory potential score(调控潜能得分)?
----g:起始位点()
----k:结合位点的数量,即peak的数量
----∆:结合位点与TSS(转录起始位点)之间的精确距离,与100 kb成比例(∆ = 0.1表示精确距离= 10 kb)。
----4:随着距离增加,调控力衰减的快慢程度的一个常数。
由公式看出,当结合位点和TSS距离最小是0 的时候,调控潜能最大,是e-0.5。随着距离增加,调控潜能变小。
通过累积分布曲线判断是激活或者抑制功能。
下图为前列腺癌细胞系LNCaP里AR的ChIP-seq做的图。这个图的三个线,红线、蓝线和虚线分别表示RNA-seq得到的上调、下调和不变的基因,无差异表达的基因作为背景。横坐标是对调控潜能从高到低进行的排序,是一个rank。纵坐轴是基因的累积分布比例。整个曲线是一个CDF。
-
假设10000这里,蓝色曲线对应的蓝线是30%左右,而红色对应的是70%左右,也就是说70%的上调基因都具有较高的调控潜能,从整个曲线可以看出来,红色曲线同一个X轴对应的Y值都比较大。所以说明AR是起到激活作用。而这两个图,Tet1在小鼠ES细胞中具有抑制功能,ESR1在乳腺癌细胞株MCF-7中具有激活和抑制功能。
-
再来看一个例子,这个表格,假设有10个基因,3个上调基因,3个下调基因还有4个表达量不变的基因,对每个基因进行计算,发现上调基因的调控潜势普遍排在最前面,这样就得出这个转录因子具有激活的作用。
功能2: 直接靶基因的预测
上图是直接靶基因预测的结果,最后一列为靶基因名称。每个基因都有两个rank,一个是基于调控潜能*Rgb8,一个是基于差异表达Rge,然后计算这两个的乘积。
假设有n个基因表达都有差异,而且调控潜能都大于0,就是说至少有一个结合事件,每个基因有两个rank,一个是递减的调控潜能Rgb,一个是增加的FDR或者P值,Rge,然后计算乘积。RP可以看成是一个P值。可以通过具体的cutoff来判断靶标,或者根据具体排序来判断靶标。
功能3: 转录因子和协作子的motif预测
这两个图展示的是AR上调靶标区域的结合motif分析的截图和ESR1下调靶标区域的结合的motif分析。因为前面已经预测过AR是具有激活功能,所以这边关注的是上调结合的motif。ESR1也是一样的。最后一列提供了组中最显著的因子的motif logo。motif名称、dna结合域和物种显示在前三列。
这个是原理图,先找到结合位点的summit,然后在summit上下扩宽100bp,作为middle200bp目标区域,然后再往上下游各拓宽200bp,作为背景,以此来看在目标区域显著富集的motif。
BETA应用
BETA工具的作者虽然提出了这么一个RNA-seq和ChIP-seq整合分析的protocol,但是实际上有没有应用价值,或者有没有人写文章的时候用到了呢?
以下是一篇结合GRO-seq,RNA-seq和ChIP-seq进行分析,描绘乳腺癌MCF-7细胞在G0/G1,G1/S和M期的转录全景的文章。
- GRO-seq是一种专门研究新生RNA的方法。
- 作者说的eRNA(enhancer RNA),即合并不同细胞周期阶段的H3K27ac ChIPseq峰,并过滤启动子区域,滑动窗口法识别eRNAs,识别差异eRNA,作者专门开发了一个pipeline。
为了探讨eRNAs在转录调控和细胞周期进展中的作用,作者用BETA分析了差异转录的eRNAs与基因的相关性。上面这三个图是结合CRO-seq分析的,下面是结合RNA-seq分析的。
可以看出,通过GRO-seq确定,在eRNA和差异转录基因之间鉴定出强相关性。而RNA-seq数据进行的分析eRNAs与差异表达基因之间的相关性要弱得多。所以得出结论,从gro -seq分析瞬时转录调控而不是从RNA-seq分析稳态基因表达的具有意义。
作者在这个文章里面还用BETA进行了靶基因的预测。通过eRNA分析发现KLF4是G1/S过渡的关键调控因子,用BETA分析出了10个可能的直接靶基因,然后也做了敲除该基因的验证,发现KLF4沉默后有6个都显著下调了。
emmm......利用BETA联合分析RNA-seq和ChIP-seq,研究转录因子是否具有激活或者抑制功能,可以预测转录因子的直接靶基因,并且鉴定转录因子和它的协作子的motif。
多了一个这么厉害的分析工具,感觉可以立马发好文章了[狗头]。
参考资料
Target analysis by integration of transcriptome and ChIP-seq data with BETA. November 2013.
文章转自微信公众号:嘉因生物