Ribo-seq实验总结
Ribosome profiling是一种新出现的实验技术,它结合了高通量测序技术的应用,可以在全基因组水平上监测蛋白质的翻译水平,给研究细胞内蛋白质的翻译调控机制带来了新的可能。
目前Ribo-seq建库测序的原理主要是通过对细胞使用翻译抑制剂,使正在翻译的核糖体固定在mRNA序列或者起始位点上。裂解细胞后在细胞裂解液中加入RNase,消化不受核糖体保护的mRNA,分离单一核糖体并提取纯化核糖体上未被消化的短片段mRNA,进行建库测序和相应的数据分析。
具体实验原理和主要分析内容如下:
1 Ribo-seq数据长度统计
高质量的ribo-seq文库的读长分布peaks主要集中在26-34nt左右范围(峰值最高点对应的RPF长度值随样本不同有差异),尤其是真核生物的细胞质核糖体。这里,我们根据测序的mRNA的片段分布来评估实验富集的效率。
2 reads gene feature分布图
将比对到基因组上的reads在gene feature中的分布情况进行统计,定位区域分为5’UTR,CDS,3’UTR。
3 Principal Component Analysis 主成分分析
主成分分析(PCA)是一种无监督特征学习的数据降维算法,通过样本的表达数据展示数据的分类情况。 利用 PCA 分析可获得样本在实验组和对照组之间的直观分布情况,从而便于对离群样本进行检测和去除,并能找出相似度高的样本集合。我们采用所有样本中均数差别(ANOVA)显著的基因(P value ≤ 0.05)做 PCA 分析,绘制得到 PCA 图(无重复样本使用全部 gene 做 PCA 图)
PCA 结果展示了样本间数据的分类情况,每种颜色代表各个分组,每个坐标轴代表一种主成分。
4 Ribo-seq样品间相关性分析
样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1,表明样品之间表达模式的相似程度越高。若样品中有生物学重复,通常生物重复相关系数要求较高。
样品相关系数Heatmap图,蓝色深浅代表相关性高低。
5 差异TE(Translation Efficiency翻译效率)基因聚类分析
Ribo-C vs Ribo-T 显著差异TE基因聚类示例。差异表达基因聚类图。每行代表一个基因,每列代表一个样本。红色代表TE上调显著差异基因,绿色代表TE下调显著差异基因。
注:TE的计算需要同时做原样本的RNA SEQ。
显著差异TE基因聚类示例
6 差异显著TE基因GO富集分析
差异表达基因的 GO 富集分析结果(Top 3)
GO 分析(BP、CC、MF)结果中差异最显著的前 10 个 GO 条目 bar 图。按照 p-value 从低到高排列,纵坐标表示 p-value(-log10 转化)。
7 差异显著TE基因KEGG富集分析
前 5 个差异表达显著基因的 Pathway 结果
Benjamini-Hochberg False Discovery Rate (FDR) 校正 p_value