可能是最简单的TCGA表达数据分析数据库(二)

2020-04-30  本文已影响0人  drlee_fc74

有小伙伴说想知道GEPIA数据库的用法。正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能。所以就趁着这个机会给大家介绍一下GEPIA2吧。昨天我们介绍了其中一部分,这里我们来说一下后面的一些功能。

预后分析

如果要查看一个基因的预后的话。可以通过这个功能来查看。新版的预后分析。添加了一些新的选择,这里我们就简单的介绍一下。

image
  1. 在进行基因分组的时候,不用中位置来进行区分。而已使用表达的前X%(例如25%)作为高表达组,然后后X%(25%)作为低表达组。这样再看这两组预后有没有意义。这个就是数据库使用四分位数分析的方法。

  2. 还有一种这个数据库实现不了,不过可以介绍一下。这个方法也可以叫best spearation。类似于穷举法。我们把基因表达每一个值都当作一个界限值来进行分组,然后看各个分组的预后有没有意义。在所有分组分析的结果当中选择最佳的当作最佳的分组。这种统计方法叫做最大选择秩统计量。感兴趣的可以查一下。

    其他的一些,就是常规的数据库的选择方式了,这里我们就不介绍了。数据库提供了三种结果呈现

  3. 单一基因的预后分析图:

image
  1. 某一个肿瘤预后最有意义的基因
image
  1. 某几个基因在不同肿瘤当中的预后HR结果比较
image

基因异构体表达分析

基因在形成mRNA的时候,由于可变剪切的存在,就形成了不同的异构体。所以对于不同的异构体,其表达量可能是不一样的。在这一部分我们可以查看一个基因不同异构体的表达水平。

  1. 我们可以查看某一个基因异构体在不同肿瘤当中的差异趋势
image
  1. 查看基因异构体的具体区别
image

基因之间的相关分析

如果我们想看两个基因之间的相关性,可以通过这个部分来查看的。我们需要做的就是输入想要查看的两个基因,同时选择分析方法就行

对于相关分析的分析方法,目前也就是三种: pearson; spearman以及Kendall。这三种方法的话,简单的应用区分的话,

由于我们的表达数据不存在等级的说法,所以Kendall是不需要的。对于TPM的数据,一般来说都是偏态的,而通过log2(TPM + 1)转换之后,有的可能会变成偏向正态的。所以这也是数据库在计算相关的时候默认使用的是pearson。但是有时候数据就算转换了,有可能也是偏态的,所以这个时候可以使用Spearman分析一下看看。

结果呈现的话,就是一个相关分析的图:

image

降维分析

我们在进行多维度分析的时候,都会通过降维分析来查看,具体的具体影响因子可能是什么。常规的降维分析就是PCA(主成分分析了)。这个数据库提过了,我们输入目标基因来查看降维结果的界面。进而了评价说。这几个目标基因能不能把用来区分不同的分组。

如果对于主成分分析不了解的话,推荐STATQUEST对于PCA的讲解(bilibiliID: BV1T4411T73S)

结果呈现的话,首先是一个柱状图来说不同成分对于变异度解释的程度。
image
另外还提供了,主成分分析的散点图。数据库提供了三维的主成分分析的图,由于小编不喜欢三维图形(区分度太差了)。所以就只放一个2D的了。
image

数据库总结

关于GEPIA2的的应用也就这些了,中间我们在每一个分析方式当中添加了一部分少量的方法讲解。如果有检索目标,想看一下在某一个基因在TCGA当中的表达关系的话,利用GEPIA来进行查找还是一个快速的方法的。

上一篇 下一篇

猜你喜欢

热点阅读