小教程收藏

BETA包,RNA-seq和ChIP-seq联合分析的利器

2020-05-13  本文已影响0人  表观遗传小助理

BETA package简介

1. BETA(Binding and expression target analysis)package, 是RNA-seq和ChIP-seq联合分析的工具,集成了ChIP-seq的转录因子或染色质调控因子和差异基因表达数据,从而推断出直接的靶基因。

BETA预测的是direct target,与target相比有所不同。

如果只做RNA-seq,可以得到target genes,但是不知道这些target genes是直接的还是间接的,有可能是通过直接影响之后改变的间接的genes。而同时做ChIP-seq,就可以知道direct target genes。可以看到通过转录因子影响之后直接的靶基因。

2. BETA适用于哺乳动物中的人或者老鼠转录因子的分析。在哺乳动物实验系统中,基因表达变化和转录因子结合之间的一致性通常很难解释。

BETA功能分析

BETA通过三个命令,来实现明显的功能分析。它的三个命令分别是BETA-basic、BETA-plus和BETA-minus

  • BETA-basic可用于预测某个因子是否具有激活或抑制功能,并检测直接的靶基因;
  • BETA-plus可用于预测某个因子是否具有激活或抑制功能,是否可以检测直接靶基因,可以分析目标区域的motif;
  • 对于BETA-basic和BETA-plus,都需要结合和差异表达数据,而当只有结合数据可用于预测靶基因时,则使用BETA-minus

功能1: 激活或抑制功能的预测

首先,把RNA-seq获得的差异基因按照表达模式分成了上调、下调和不变三个组。再把ChIP-seq对应的基因按照regulatory/potential score进行从高到低的排序。然后分别做上调,下调和不变基因的累计分布曲线。

什么是regulatory potential score(调控潜能得分)


----g:起始位点()
----k:结合位点的数量,即peak的数量
----∆:结合位点与TSS(转录起始位点)之间的精确距离,与100 kb成比例(∆ = 0.1表示精确距离= 10 kb)。
----4:随着距离增加,调控力衰减的快慢程度的一个常数。

由公式看出,当结合位点和TSS距离最小是0 的时候,调控潜能最大,是e-0.5。随着距离增加,调控潜能变小

通过累积分布曲线判断是激活或者抑制功能。

下图为前列腺癌细胞系LNCaP里AR的ChIP-seq做的图。这个图的三个线,红线、蓝线和虚线分别表示RNA-seq得到的上调、下调和不变的基因,无差异表达的基因作为背景。横坐标是对调控潜能从高到低进行的排序,是一个rank。纵坐轴是基因的累积分布比例。整个曲线是一个CDF。


功能2: 直接靶基因的预测

上图是直接靶基因预测的结果,最后一列为靶基因名称。每个基因都有两个rank,一个是基于调控潜能*Rgb8,一个是基于差异表达Rge,然后计算这两个的乘积。

假设有n个基因表达都有差异,而且调控潜能都大于0,就是说至少有一个结合事件,每个基因有两个rank,一个是递减的调控潜能Rgb,一个是增加的FDR或者P值,Rge,然后计算乘积。RP可以看成是一个P值。可以通过具体的cutoff来判断靶标,或者根据具体排序来判断靶标。


功能3: 转录因子和协作子的motif预测


这两个图展示的是AR上调靶标区域的结合motif分析的截图和ESR1下调靶标区域的结合的motif分析。因为前面已经预测过AR是具有激活功能,所以这边关注的是上调结合的motif。ESR1也是一样的。最后一列提供了组中最显著的因子的motif logo。motif名称、dna结合域和物种显示在前三列。


这个是原理图,先找到结合位点的summit,然后在summit上下扩宽100bp,作为middle200bp目标区域,然后再往上下游各拓宽200bp,作为背景,以此来看在目标区域显著富集的motif。


BETA应用

BETA工具的作者虽然提出了这么一个RNA-seq和ChIP-seq整合分析的protocol,但是实际上有没有应用价值,或者有没有人写文章的时候用到了呢?
以下是一篇结合GRO-seq,RNA-seq和ChIP-seq进行分析,描绘乳腺癌MCF-7细胞在G0/G1,G1/S和M期的转录全景的文章。

  • GRO-seq是一种专门研究新生RNA的方法。
  • 作者说的eRNA(enhancer RNA),即合并不同细胞周期阶段的H3K27ac ChIPseq峰,并过滤启动子区域,滑动窗口法识别eRNAs,识别差异eRNA,作者专门开发了一个pipeline。

为了探讨eRNAs在转录调控和细胞周期进展中的作用,作者用BETA分析了差异转录的eRNAs与基因的相关性。上面这三个图是结合CRO-seq分析的,下面是结合RNA-seq分析的。

可以看出,通过GRO-seq确定,在eRNA和差异转录基因之间鉴定出强相关性。而RNA-seq数据进行的分析eRNAs与差异表达基因之间的相关性要弱得多。所以得出结论,从gro -seq分析瞬时转录调控而不是从RNA-seq分析稳态基因表达的具有意义

作者在这个文章里面还用BETA进行了靶基因的预测。通过eRNA分析发现KLF4是G1/S过渡的关键调控因子,用BETA分析出了10个可能的直接靶基因,然后也做了敲除该基因的验证,发现KLF4沉默后有6个都显著下调了。


emmm......利用BETA联合分析RNA-seq和ChIP-seq,研究转录因子是否具有激活或者抑制功能,可以预测转录因子的直接靶基因,并且鉴定转录因子和它的协作子的motif。

多了一个这么厉害的分析工具,感觉可以立马发好文章了[狗头]。

参考资料

Target analysis by integration of transcriptome and ChIP-seq data with BETA. November 2013.

文章转自微信公众号:嘉因生物

上一篇下一篇

猜你喜欢

热点阅读