手把手学习TCGA数据库:SNP突变分析第四期
本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求
点击蓝字关注我们
各位科研芝士的朋友,大家好,又见面了,今天我们的主题是利用cBioportal及UCSC-XENA数据库在线下载TCGA_SNP数据
第一部分
cBioportal数据库
这是一个专业分析TCGA数据的网站,相信很多肿瘤研究方向的老师同学都不陌生。网站在TCGA数据可视化中做的很不错,可以直观的看到数据以图和表的方式呈现,帮助大家更好使用TCGA这个资源丰富的数据库。下面我们就进入正题,网站主页是这样的:
01
cBioportal网址
http://www.cbioportal.org/index.do
最新的cBioportal进行了更新,增加了一个Quick Search按钮,可以快速的进行数据检索,那我们先看看该数据库的使用。
02
先点击Query,进入该界面,接着点击2处的数据来源
03
点击TCGA provisional,进入TCGA数据站,会出现下面的界面。
可以看到一共有32个TCGA数据集,我们点击第一个肾上腺皮质癌,点击进去, 点击view summary
便会出现下面的界面
可以看到主要是包括了CNV的信息和Matution信息,Mutation 按照突变频率进行了排序,可以看到在肾上腺皮质癌中ZFPM1突变频率最高,CNV主要涵盖了两类分别是del和amp。当然还有一些生存曲线的图形。
04
看到了Mutation,我们怎么可以轻易放过呢?
点击红色框框箭头所指的地方,我们便可以下载最显著突变的基因了,进入该疾病的临床数据存储站,出现下面的界面,点击下载按钮,便可以下载该数据。
同样,我们点击箭头所指的地方可以下载Mutation Count文件
05
当然我们也可以通过Data Sets下载,首先,进入Data Sets。
06
接着我们找到Adrenocortical Carcinoma (TCGA, Provisional),进行数据下载
下载之后的数据如下,是一个压缩包,我们继续解压,发现包含的数据,很多,真的是一次下载多次使用。
我们发现我们需要下载的mutation数据就在里面,几乎就是把一种疾病的所有类型数据全部给下载了。
第二部分
UCSC-XENA工具
趁热打铁!还记得我们在RNAseq数据下载时,提到的主角UCSC-XENA工具吗?一个无编程的网页版工具,帮助我们轻松下载TCGA数据。我们继续点击鼠标,实现我们的TCGA_SNP数据下载梦。往期推送:
手把手教你用R语言下载TCGA数据:UCSCXenaTools
UCSC-XENA网址:
https://xena.ucsc.edu/
人家的界面长这样:
黄色框框是官网给的如何使用该网址的教程。
红色框框是我们需要点击进入的界面。
07
点击launch Xena,出现下面的界面,那数据藏在哪里了呢?
08
点击DATA Sets 进入数据存储站,出现下面的界面
可以看到在右侧的Active Data Hubs 包括了很多,不仅涵盖了TCGA还包括ICGA,Pan-Cancer Atlas Hub等数据节点。因为我们是研究TCGA,我们只需要选中TCGA就可以了。
09
选中TCGA,进入TCGA数据站,其包含的数据主要是下面38个
10
随便选择一个癌症,比如选择第一个AML,点击进去,出现下面的界面
我们发现该网站已经整理好了各类数据,包括CNV,DNA甲基化等,方便用户下载,大大方便了我们使用。接着我们找到SNV数据,如下,注意有两个点,一个是somatic mutation,一个是somatic non-silent mutation,我们选择somatic non-silent mutation,点击带有*号的数据,进入。
11
点击之后,进入下面的界面:
点击红色框内的链接便可以进行数据下载了,下载之后的数据是一个压缩包,解压之后便可以使用了。
12
数据说明:
如上表格中,0代表未发生突变,1代表发生了突变,行名代表基因名。
Ok,今天的教程主要是带大家利用cBioportal/UCSC-XENA 进行无代码的 SNP数据下载,下期我们继续推出SNP数据下载的其他方式。