GEO数据挖掘生物信息学从零开始学R. python新手日记

一文解决多个不同平台差异分析结果合并

2019-10-05  本文已影响0人  柳叶刀与小鼠标

介绍:

原因:随着技术平台的不断发展,许多已发布的实验数据集可以被不同统计方法整合,使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益,我们需要以公正的方式整合它们的结果,例如不同实验的差异分析结果。优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法。因此,秩聚合方法可以成为这一类问题的有用且通用的解决方案。

结果:标准等级的合并方法通常不适用于具有比较大的噪声的基因表达矩阵。因此作为一种补救措施,有研究者提出了一种新颖的秩聚合(RRA)方法。该方法可以检测出在不相关输入的零假设下始终比预期更好地排名的基因,并为每个基因分配显着性得分。潜在的概率模型使算法参数自由且对异常值,噪声和错误具有鲁棒性。重要性评分还提供了一种严格的方法,可以仅将统计相关的基因保留在最终列表中。这些特性使该方法在许多环境下都具有强大的吸引力。

示例:

背景

这项研究的目的是通过组合数据库筛选肺癌的预后基因,预测和探索遗传标志物在肺癌发展中的可能机制和临床价值。

材料和方法

通过使用R语言从Gene Expression Omnibus和The Cancer Genome Atlas数据库收集并进行计算,研究了两个基因表达芯片(GSE3268和GSE10072数据集)中的常见差异基因。通过以下方法发现了五个基因组成标记:核糖核苷酸还原酶调节亚基M2 [RRM2],滋养层糖蛋白[TPBG],跨膜蛋白酶丝氨酸4 [TMPRFF4],氯离子胞内通道3 [CLIC3]和WNT抑制因子-1 [WIF1]。进一步筛选基因模型的组合使用逐步Cox回归函数。通过分析基因标志物与肺癌临床病理参数之间的相关性及其对预后的影响,选择了TPBG基因进行差异表达分析,并通过基因组富集分析(GSEA)预测了其可能的途径和功能及其蛋白相互作用网络。使用检索工具检索相互作用基因/蛋白质(STRING)数据库;然后,通过定量PCR和Oncomine数据库验证TPBG在肺癌细胞和组织中的表达差异。

结果

5种遗传标志物的表达水平与生存预后相关,遗传标志物高表达患者的总生存时间短于低表达者(P <0.001)。 GSEA表明,这些高表达样品丰富了细胞粘附,细胞因子受体相互作用途径,细胞外基质受体途径,粘附途径,骨架蛋白调节,癌症途径和TGF-β途径的基因组。

结论

五个基因组成标志物的高表达是肺癌的不良预后因素,并可作为预测肺癌患者转移和预后的有效生物标志物。

材料和方法

代码:

上一篇下一篇

猜你喜欢

热点阅读