TCGA多肿瘤mRNA, lncRNA, miRNA数据挖掘
导 读
对于大多数常见疾病,GEO或TCGA等数据库有许多可用的原始数据,我们在寻找一个重要的mRNA/lncRNA/miRNA/circRNA进行研究,或者自己高通量测序找到一部分基因,需要扩大样品验证该基因差异的可靠性,我们可以借助于已有数据。之前我们推送过乳腺癌的数据分析“TCGA乳腺癌mRNA, lncRNA, miRNA数据挖掘”,肝癌的数据分析TCGA肝癌mRNA, lncRNA, miRNA数据挖掘,肺腺癌的数据分析“TCGA肺腺癌mRNA, lncRNA, miRNA数据挖掘”受到广大老师的喜爱,本文我们整理了TCGA胃癌的转录组数据,分析mRNA/lncRNA/miRNA的表达谱,以供老师研究参考。
介 绍
肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型,包括详细病人资料,基因表达,突变,甲基化等数据。本文对胃癌数据进行整理分析。
材料方法
TCGA胃癌数据:
1)临床资料
443个病人临床资料包括性别,年龄,病理分期,生存时间,存活状态。
2)基因表达数据
407个病人癌组织与癌旁组织基因表达count值,fpkm值数据。
3)miRNA表达数据
477个病人癌组织与癌旁组织miRNA表达count值,tpm值数据。
分析结果
1 mRNA癌与癌旁差异表达分析
1)差异表达基因火山图图
对癌与癌旁样品基因表达数据进行差异分析,取|log2(FoldChange)|≥1, padj<0.01 且至少有一个分组样品FPKM≥1(去掉表达丰度较低的基因),得到有效差异表达的mRNA,火山图如下:
2)差异表达基因聚类热图
对差异表达mRNA进行聚类,做热图(前200个差异mRNA)。
3)GO富集分析分子功能展示
GO富集分析分析得到的分子功能(Molecular Function)具体term。
4)KEGG pathway通路富集分析
应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。富集到的Pathway通路:
5)pathway通路图标注
为便于查看 mRNA 所在基因在通路图中的分布情况,将差异表达mRNA标注到通路图其中包含上调基因的 KO 节点标红色,包含下调基因的 KO 节点标绿色(此图为Cell Cycle通路,可以看出显著激活)。
2 lncRNA癌与癌旁差异表达分析
1)差异lncRNA火山图
设定阈值|log2(FoldChange)|≥1, padj<0.01筛选有效差异的lncRNA,火山图如下:
2)差异lncRNA聚类热图
对差异表达lncRNA进行聚类,做热图(前200个差异lncRNA)。
3)差异表达lncRNA cis靶基因预测
cis 作用靶基因预测认为lncRNA的功能与其坐标临近的蛋白编码基因相关,将 lncRNA 临近位置的(上下游100kb)蛋白编码基因(仅选择有差异的mRNA)筛选出来作为其靶基因。cis 作用靶基因预测结果如下表所示:
4)差异表达 lncRNA 保守性分析
lncRNA保守性普遍较低, 但仍有部分lncRNA具有较高的保守性, 或者具有较高的保守区域。这种多物种保守区域暗示其具有保守的功能。本分析对差异表达lncRNA进行保守性分析,以供后续挑选lncRNA参考,保守性得分最大值为1, 越接近1保守性越高。
3 miRNA癌与癌旁差异表达分析
1)差异表达miRNA火山图
设定阈值|log2(FoldChange)|≥1, padj<0.01筛选有效差异的miRNA,火山图如下:
2)差异表达miRNA聚类热图
对差异表达miRNA进行聚类,做热图。
4 生存曲线分析
将差异表达的 mRNA, lncRNA, miRNA 使用 FPKM 或 TPM 值,以中位值为标准将基因的表达量分为低表达组与高表达组,并采用 Kaplan-Meier 和 log-rank 检验法进行生存曲线分析。