Ribo-seq分析必看文献 | 知识(一):15年玉米
2019-02-25 本文已影响28人
热衷组培的二货潜
https://onlinelibrary.wiley.com/doi/full/10.1111/tpj.13073
关键词:
个人比较震撼的是文中在干旱胁迫后由
总结:
- 植物可以通过各种机制在转录和翻译水平上对环境变化做出反应。到目前为止,人们对植物在转录水平上的胁迫反应已有了较为广泛的认识,而在翻译水平上对植物的胁迫反应知之甚少。为了揭示植物在干旱胁迫下的翻译情况,我们对
正常
和干旱
条件下生长的玉米幼苗
进行了Ribo-seq
测序。对Ribo-seq
数据和RNA-seq
数据的比较分析表明,在转录水平上,基因表达的倍性变化
与翻译水平的变化
呈中度相关(R2=0.69)。然而,在干旱条件下,只有不到一半的响应基因被转录和翻译所共享,这表明干旱胁迫可以独立地引起转录和翻译反应
。我们发现在干旱胁迫下,931个基因的翻译效率发生了明显的变化。进一步分析表明,基因的翻译效率受其序列特征(GC含量、编码序列长度和归一化最小自由能)
的影响较大。此外,我们在2558个基因上检测到3063个上游开放阅读框架(uORFs)
的潜在翻译,这些uORFs
可能影响下游主要开放阅读框架(mORFs)
的翻译效率
。我们的研究表明,植物对干旱胁迫的反应具有高度动态的翻译机制,并与转录反应具有协同作用。
关键词:maize
, ribosome profiling
, RNA-seq
, drought stress
, translational efficiency
, uORF
简介
Ribosome profiling
-
该方法可通过对核糖体结合的mRNA片段(RPF)的深度测序提供蛋白质合成的单核苷酸分辨率测量
-
技术来源于2009的一篇sicence
image.png
Genome-Wide Analysis in Vivo of Translation with Nucleotide Resolution Using Ribosome Profiling
-
建库流程,简单的来说就是只将核糖体结合的RNA(即正在翻译的RNA)拉下来进行建库,而不同于RNA-seq建库(将所有的RNA进行建库)
image.png -
详细视频讲解见翻译组介绍与应用
-
在植物中首先运用于拟南芥中研究光形态问题
涉及缩写
- uORF:upstream open reading frame
- WW:well-watered
- DS :drought-stressed
Result
一、 数据的产生以及Ribo-seq数据的特征
-
本文Ribo-seq建库方法
image.png
测序量
如下,可以明显看到Ribo-seq
所需要的测序量很高,而且由于大量的rRNA最终比对上的有效的Reads大约只有12%。
-
Ribo-seq测序量
:-
WW seedlings
:240 million reads -
DS seedlings
: 150 million reads
-
-
RNA-seq测序量
:-
WW seedlings
:32 million reads -
DS seedlings
: 48 million reads
-
-
数据的重复性高达0.9+
- 进一步分析RFP长度分析,发现都主要分布在30bp(Fig2 a)左右, 与之前的报道基本一致,但是与酵母中报道的
28nt
略长。在翻译过程中,核糖体一次推进三个核苷酸
,同时作者本文中也在开始密码子后
和终止密码子前
也观察到了一个很强的三核苷酸周期性(Fig2 b)。在WW幼苗中RPF
主要位于CDS区
(97.5%),其次是5'UTR
(2.1%)和3'UTR
(0.4%) (Fig2 d)。而在经历drought
后DS中,RPF
主要位于CDS区
(95.9%),其次是5'UTR
(3.6%)和3'UTR
(0.5%) (Fig2 d)。表明在UTR
中特别是5'UTR
上有潜在的翻译能力
。
Fig 2
二、干旱胁迫改变翻译水平和转录水平的表达
- 差异基因数目统计(Fig3 a)
-
转录水平
: 1646 up 2870 down -
翻译水平
: 1779 up 3832 down -
为了进一步确认转录水平在干旱胁迫后受到抑制,与WW苗相比,DS苗中的多体比例从49.9%下降到33.9%,单体比例从34.9%上升到48%,说明DS幼苗中的翻译受到全基因组的抑制。
Fig 3 - 作者计算了转录组数据和Ribo-seq数据两者的相关性为
0.69
。进一步将基因分类,发现59%
响应的基因属于C
类和G
类(转录水平与翻译水平变化一致
)(Fig 4)
Fig 4
三、干旱胁迫导致大量基因的翻译效率发生显著变化
- TE(Translational efficiency) = FPKM
ribosome-profiling
/ FPKMRNA-seq
, 翻译效率TE
代表RNA的使用率。 - 全基因组分析
TE
, 发现基因的TE
变幅达4000倍以上,表明大量基因经历了高度动态的翻译调控(Fig5 a), 作者观察到与光合作用有关的基因的转录丰度
(P值=6.45e-13)和TE
(P-值=2.64e-08)都比在幼苗中表达的所有其他基因的转录丰度
高(P值=6.45e-13)和更高的TE
(P-值=2.64e-08)(图5a)。这些光合作用相关基因的表达增加,表明它们除了具有较高的活性外,还具有更高的翻译效率。
Fig 5 - 作者猜想植物是否能够通过翻译效率的变化来对干旱胁迫做出反应?干旱处理后,作者检测到538个
TE
降低的基因(小于2.8倍,z评分<2)和393个TE
增加的基因(大于2.7倍,z评分>2)(Fig5 b),说明调节基因翻译效率可能是植物逆境反应的重要途径。
四、基因的翻译效率受其序列特征的影响。
- 据报道,
基因的序列特征
有助于增加与多核糖体体相关的mRNAs的比例,并进一步影响蛋白质的丰度。作者研究了CDS
、3'UTR
和5'UTR
基因的三个序列特征(序列长度、归一化最小自由能(NMFE)和GC含量),并估计了它们对相应基因翻译效率的潜在影响。- 对于
CDS
: 翻译效率较高(log2(TE)>1)的基因具有较短的长度、较高的GC含量和较低的NMFE。 - 对于
3'UTR
: 较高的翻译效率基因和较低的翻译效率基因之间的差异相对较小。在3'UTR中,只有最高翻译效率组(Log2(TE)>1)的基因具有较短的长度、较高的GC含量和较低的NMFE。 - 对于
5'UTR
:翻译效率较高
的基因(log2(TE)>1)具有较短的长度、较低的GC含量和较高的NMFE。
- 对于
- 接下来,作者检查具有一致和不一致表达模式的基因的序列特征是否不同。基于Kolmogorov-Smirnov检验(KS检验),累积曲线表明,与非协调组(Fig 3c 中非重叠部分的基因)相比,位于同一组(Fig 3c 中重叠部分的基因)的基因在CDS中的GC含量(P值=3.7e-11)趋向于
较高的GC含量
(P-value=1.6e-12)和低NMFE
(P-value=1.6e-12)(图3c中的非重叠部分的基因)(Fig 6b、c).。此外,50个UTR中GC含量较低的基因往往受到一致的调控(P-值=1.2e-4;图S9j)。
Fig 6
五、广泛的上游开放阅读框架(UORF)
- 缺水使
5'UTR
中RPFs
的比例增加了1.7倍(Fig 2d),暗示着5'UTR
的某些元件
可以参与胁迫的应答。而uORF
(位于5'UTR
区的小ORF)已报道能够抑制下游主要的ORFs(mORFs
)的翻译(by reinitiation and leaky scanning and have been identified in several organisms
)。在玉米中之前只有两个经典的含uORF
的基因被报导。而通过Ribo-seq
可以从全基因组上去鉴定这种含有uORF的基因
。 - 作者首先基于玉米基因组中存在
AUG
起始密码子的基因,进行了uORF
预测。为了更准确地鉴定含有uORF的基因,我们对过滤得到的基因集(FGS)中的26 971
个玉米基因进行了研究,这些基因与其他4个草种(水稻(Oryza Sativa)、短腿草(Braqupodium Distthon)、谷子(Setaria Italica)和高粱(Sorghum Bicolor)是共线性的。得到7927
个含有uORF
的基因(平均每个基因含有2个uORF, 长度平均为36bp
)。进一步进行过滤,得到2558
(including 45 classical genes like Lc
)个基因,这些基因包含3063
个平均长度为105bp
的核糖体结合的uORF
。
六、翻译后的uORF抑制了mORF的翻译
- 作者为了鉴别
翻译的
和未翻译的
uORF之间的特征差异,比较了与mORF重新启动有关的三个参数:uORF长度
、5'uTR的长度
和NMFE
。作者发现翻译后的uORF
比未翻译的
具有更长的长度(P值<2.2e-16)和更强的折叠能力(P值<2.2e-16) (Fig 7a、c)。然而,带有翻译的uORFs
的基因显示出较短的5'UTR长度
(Fig7 b)。翻译的uORFs
从uORF到mORFs起始密码子
的相对距离(P<2.2e-16)和从uORF到转录起始位点
(TSS)(转录起始位点,P=1.4e-9)的相对距离都较短(Fig7 d、e)。 - 在
翻译后的uORFs
中,鸟嘌呤
在-3
(P-值=0.02)和+4
(P-值=3.0e-4)位置的概率高于未翻译的uORF
(P-值=0.02)。 - 与
未翻译的uORFs
相比,翻译的uORFs
显著降低了相应基因的TE
(Fig7 g)。此外,翻译的uORFs
数量的增加
进一步促进了TE
的减少。 - uORFs被报导响应
糖信号
(Wieseet al., 2004)、光
(Liu et al., 2013)and病原菌的侵染
(Pajerowska-Mukhtar et al., 2012)。作者检测了在干旱后uORF
的翻译效率,发现相对于正常的幼苗,uORF
的翻译效率要高。说明玉米在干旱胁迫
下uORFs
的翻译在全基因组范围内都得到了增强(Fig7 h)。TE
效率增加的uORF
的比例与位于5'UTR
中RFPs
增加的比例一致(Fig 2d)。
Fig 7
Ribo-seq分析本文提供图
Ribo-seq相关分析方法
-
reads
过滤:fastq_illumina_filter
使用参数-keep N -v
保留最佳质量的reads
。 -
Adapter
切除:fastx_clipper
使用参数-Q 33 -a CTGTAGGCACCATCAAT -l 25 -n -v
进行切除,然后在使用fastx_trimmer
使用参数-Q 33 -f 2
去除每次读取的5'端第一个核苷酸
(原因是它在逆转录过程中经常代表一个未模板化的加成。)。 -
rRNA
过滤:从NCBI
下载rRNA
序列信息,然后bowtie
使用参数–chunkmbs 1000 -un -al
去除由于rRNA
造成的污染。 -
Tophat2
比对:将玉米B73
的基因组序列通过Tophat2
使用参数–bowtie1 -N 2 -I 50000 -p 3
进行比对 -
翻译丰度
的计算:通过Cufflinks
使用参数–p 3 -G -u
来进行计算,只考虑比对到CDS
上的reads,FPKM
最终来衡量每个基因的翻译丰度。 -
翻译效率
计算: 只考虑FPKM
≥ 1的基因进行样本间的重复性和进行后续分析。- TE = FPKM(translational_level) / FPKM(transcriptional_level)
-
3碱基周期性图
: i =4
*
read number i
/((read number (i - 2)
+read number (i - 1)
+read number (i + 1)
+read number (i + 2)
), 然后绘制每个点对应的图 -
Normalized minimal free energy (NMFE)
计算:定义二级结构的序列稳定性
,它由RNAfold
计算,并由序列长度
规格化 -
uORF
预测:predict uORFs with the sequence structure of (ATG-3n-TAG|TAA|TGA)
, 通过uORF
的FPKM值是否大于1分类为表达和不表达。 -
motif
图绘制:Seqlogo