燃爆!那个碉堡的TCGA分析网站GEPIA升级了。
基于TCGA数据分析的网站有很多了,但是大都有两个缺点,
- 1.表达量来自于基因,而不是来自于转录本。
- 2.癌症没有亚型分析
原因是,我们拿到的数据应该都是level3的,没办法从源头上进行转录本分析。但是Toil 计划重新分析了这些数据,并提供了转录本的数据供大家使用,数据存放在这里。
https://xenabrowser.net/datapages/?hub=https://toil.xenahubs.net:443
为什么转录本重要,因为一个基因对应多个转录本,不是每一个转录本都重要,而且非编码RNA本质上就是转录本,所以基于转录本的数据分析更加准确。
可以下载这些数据,然后在R语言里面看看效果。
看一下A基因的转录本1在乳腺癌亚型中的表达
我们发现,后面两个亚型有差异,但是我认为这不重要,因为这个转录本本身表达量很低,如果要做实验,敲减都很困难。
再看看第二个转录本
这时候就在所有亚型中,癌症中该转录本都下调,而且,这个转录本本身比表达量要高很多,所以,如果你研究这个基因,最好选择这个转录本。
这个对于非编码RNA来说,更加重要,因为不同的转录本本质上就是不同的lncRNA了,选错转录本,后面的RACE,RNA-pulldown可能都白做了。
如果做一下这两个转录本和免疫浸润的关系,也是有点差别的
这些都是会了R语言之后,自己处理的,不过如果不会,也没关系,GEPIA数据库已经支持了。
两年前我写过这个数据库网站的介绍
中国制造:碉堡的TCGA可视化网站GEPIA
现在当你打开这个网站的时候,他会跳出来一个信息说,我们更新啦。
正好,他更新的重点就是转录本分析和亚型分析。我们就来试试看。
1.选择基因(有目的基因的自行跳过)
首先筛选目的基因,就是看癌和癌旁有差异的
因为我这里心有所属,所以就以APOD为例,按照基因正常的用法我就不说了,我来说说转录本和亚型。首先去确定要研究的转录本
2.确定转录本
出来的结果是这样的
同等条件下,我们就选第一个转录本,因为他的表达量比较高
得到他的ensemble ID是ENST00000343267.7
因为即使一个编码基因也有可能出现非编码的转录本,所以需要去general模块确认一下,发现我们选的是个编码转录本
3.差异作图
现在论文对数据的要求是,boxplot联合点图,所以我们作图展示一下。
出来的结果是这个样子的
还可以勾选亚型分析
出来的结果是这个样子的,很壮观,都是下调的
4. 生存分析
临床医生做科研,关心的就两点,一个是诊断,一个是治疗,我们想看看,这个基因的差异,对于患者的预后怎么样。
不分亚型,出来的结果是这样的:
简单说来就是,看到第二只龙死了,心都凉了,居然没什么差异,我们再来尝试亚型的生存分析
这回的结果是这样的:
这个真不得了,高表达这个基因的三阴性乳腺癌病人,不容易死。
我们再看看其他三个亚型
最终发现,都没有差异。如果我们不分亚型,就会错过这么一个有潜力的基因,他在三阴性乳腺癌里面下调,而且高表达这个基因的患者获得更高的受收益。
脑子抽筋
我突然间有了个想法,既然我们公众号写了这么多生信的帖子,也有两个实验专栏,如果没人跟我抢这个基因,我就开始直播这个基因的的研究过程了。
不要以为我在开玩笑,两年前,我在那个帖子里面给出一个基因LACTB,并且说了这样一段话:
当时,LACTB在肿瘤里面的关系只有一篇nature,但是现在已经有好几篇肿瘤相关文章了。oncogene上就有一篇
Kaixuan Zeng, et al. LACTB, a novel epigenetic silenced tumor suppressor, inhibits colorectal cancer progression by attenuating MDM2-mediated p53 ubiquitination and degradation. Oncogene, DOI: https://doi.org/10.1038/s41388-018-0352-7