TCGA数据挖掘实战--“秃鹫”师兄的SCI进阶之路
微信公众号: 科研猫
本文系 公众号:科研猫 原创,侵权必究,转载联系科研猫公众号后台。
隔壁实验室那个小哥哥,满~头~秀~发,笑容迷人,不曾蓬头垢面,也没有“鼠香”四溢,却要自称科研“秃鹫”!?
直到昨天才知道,人家靠数据库挖掘2年已发了5篇SCI,对,就是像秃鹫一般啃啃草原上大牛剩下的骨头,就是这么一位人见人爱的经济实用型男友(口误)科研工作者。
啥?你瞧不上我“秃鹫”师兄,觉着这不是正经科研应有的模样,那去瞧瞧《cell》上的这篇紧靠数据挖掘的牛文,Comprehensive and Integrated Genomic Characterization of Adult Soft Tissue Sarcomas,可自行pubmed下。反正毕业季的时候,靠数据挖掘救命的同学都说“香”呢。
今天请了师兄为我们先讲讲从TCGA数据库挖掘肿瘤相关基因突变的操作方法。
何为TCGA
TCGA(The Cancer Genome Atlas)是美国国家癌症研究所(NCI)和美国人类基因组研究所(NHGRI)共同开发的大型肿瘤研究项目,旨在通过应用高通量、多组学的肿瘤基因组分析技术,加深人类对肿瘤的认知,从而提高肿瘤的预防、诊断和治疗。TCGA目前收录了68种原发肿瘤的相关数据,涉及的研究对象达到了33096人!相信做肿瘤研究的各位应该都知道这一“神级”数据库。
TCGA中的数据可为包罗万象,常见的有转录组(RNASeq或表达谱芯片)、基因组(外显子或全基因组测序)、表观遗传(甲基化芯片)、蛋白组等多组学数据,最重要的,也是TCGA显著优于其他肿瘤数据库的就是,TCGA中的每个样本都有丰富、准确的临床数据,包括我们最为关心的随访时间、肿瘤分期、病理类型等重要临床信息。
我们知道,肿瘤的发生与基因突变有很大关系,相关基因的点突变、小片段缺失和插入,引起了密码子的同义、错义、终止和移码的突变现象,导致基因表达的蛋白质由于序列的改变使其相关功能丧失,最终引发细胞的恶变与增殖,产生肿瘤。太多太多的文章都在研究和肿瘤相关的驱动基因(driver gene)或者体细胞突变(somatic mutation),试图分析基因突变与肿瘤发生发展之间的相关性。以往的研究中,我们可能要沿着“收集样本-DNA抽提-建库测序-数据分析”这一流程从头到位走一遍,找几个人合作,再花个几年时间摸索,等到花都谢了,才能得到最终的结果。
而今天,当我们手握TCGA这一神兵利器,这一切都变得那么简单,下面我们就来一步步操作一下吧。
例:分析肺腺癌中的常见基因突变
Step1:打开TCGA数据库网页
(https://portal.gdc.cancer.gov/)
Step2:点击主页中的“Exploration”选项框
Step3:进入Exploration页面后,你会看到右侧有一个选项卡,这个选项卡可以帮助我们筛选自己想要的研究对象。选项卡共分三栏
“Cases”、“Genes”、“Mutations”。
Cases:选择研究对象,
Genes:筛选研究的基因,
Mutations:筛选变异位点。
首先,选择研究对象->“肺腺癌患者”,怎么选呢?
Cases选项卡中:Primary Site选择Bronchus and lung(支气管或肺),Disease Type选择Adenomas and Adenocarcinomas(腺癌),其他选项可以根据自己的研究目的自行选择。
Genes选项卡中:在Biotype中可以选择基因的类型,比如编码蛋白的基因,非编码的lincRNA和miRNA等,在这里我们选择编码蛋白的基因,因为此类基因往往更为重要。还有一个重要的选项是:Is Cancer Gene Census,这个选项表示是否要选择已知和肿瘤相关的基因,这里我们选择true。
Mutations选项卡中:这里面是大家不太熟悉的一些选项,比如VEP Impact, SIFT Impact,Polyphen Impact,这三个选项分别对应三个常用的分析软件VEP、 SIFT和Polyphen,这三个软件是用来对氨基酸突变后对蛋白功能产生的影响进行评估的,比如SIFT的deleterious代表该突变是个有害突变,而tolerated则代表一个可耐受的突变,即氨基酸突变对蛋白整体影响不大。Consequence Type选项是指突变的类型,比如错义突变(missense_variant),同义突变(synonymous_variant)、移码突变(frameshift_variant)等。Type选项是指突变的类型,分为点突变、小片段缺失和下片段插入突变。Variant Caller选项是指鉴定基因突变的软件。分析肿瘤DNA二代测序数据的软件很多,不同软件鉴定突变位点的敏感度和特异性各不相同。目前比较主流的肿瘤call突变的软件有mutect2,varscan,muse,somaticsniper等,其中mutect2和varscan这两款软件则是由“基因组研究的圣殿—Broad Institute”开发出品,也是最为经典的分析肿瘤somatic mutation的软件,所以其分析结果的可信度较高。COSMIC ID选项是指筛选得到的突变位点是否有COSMIC ID,换句话说,即筛选到的突变是否存储于COSMIC数据库中。
COSMIC(https://cancer.sanger.ac.uk/cosmic/)是当今世界上现有的最大、最全面的人类肿瘤体细胞突变数据库。所以,为了筛选和肿瘤相关的突变,我们可以在COSMIC ID选项中勾选上Not Missing。dbSNP rs ID是指前面筛选出的突变是否带有dbSNP ID,我们都知道dbSNP是正常人群中存在的单核苷酸多态性位点,理论上来说,真正的肿瘤体细胞突变不应带有dbSNP ID,所以该选项的Not Missing请勿勾选!
Step4:当第三步这一最为重要,也最为繁琐的步骤做好之后呢,就是结果展示的界面了。在整个TCGA的右侧半边栏目中,就是筛选表达式和筛选到的结果汇总,如下图所示。
我们筛选出的结果,包括Cases,Genes和Mutations都会以饼图的形式展示出来,并在下面罗列出所有满足筛选条件的条目,点击TSV即可下载相应表格。为了分析在肺腺癌患者中的高频突变基因,我们可以点击结果显示栏的Genes窗口(下图红框),结果就一目了然了。
从上图中我们可以看出,在TCGA数据库中共找到529个患者带有肿瘤相关基因的突变,其中TP53的突变频率最高(上图绿框),达到55%,其次是KRAS、FAT4、STK11和EGFR等。就已知的文献而言,这样的结果还是相当符合已有研究的结果的。同时,我们还可以从右侧的生存曲线图形中看出带有这些基因突变的患者的大致生存时间和存活率。同时,如果我们觉得这个图不错,可以放到文章当中去,那怎么办呢,总不能截图吧,告诉你点击网页中的下载按钮(上图橙框)即可下载高清矢量原图哦!如果你觉得单看柱状图不过瘾,怎么办点击OncoGrid,即可展示在所有研究对象中,频率top50的突变基因(下图)。看了这个图是不是有点小激动,想起自己曾经在CNS的某个文章当中见过类似的图,没错就是这个,OncoGrid。此外,这里的图形还可自行调节要展示的数据内容和颜色,一样也支持高清无码矢量图下载哦。
好了,今天我们给大家演示了如何使用TCGA数据库,深入挖掘肿瘤diver gene和key mutation的方法,后续我们还会推出更多数据库使用和数据挖掘的教程,或者全套视频教程,敬请大家关注!
长按二维码识别关注“科研猫”,获取更多资讯。