生信分析工具包生信小白GEO&TCGA数据库挖掘

手把手学习TCGA数据库:SNP突变分析第四期

2019-07-25  本文已影响24人  765f2ea50d22

本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求

点击蓝字关注我们

各位科研芝士的朋友,大家好,又见面了,今天我们的主题是利用cBioportal及UCSC-XENA数据库在线下载TCGA_SNP数据

第一部分

cBioportal数据库

这是一个专业分析TCGA数据的网站,相信很多肿瘤研究方向的老师同学都不陌生。网站在TCGA数据可视化中做的很不错,可以直观的看到数据以图和表的方式呈现,帮助大家更好使用TCGA这个资源丰富的数据库。下面我们就进入正题,网站主页是这样的:

01

cBioportal网址

http://www.cbioportal.org/index.do

最新的cBioportal进行了更新,增加了一个Quick Search按钮,可以快速的进行数据检索,那我们先看看该数据库的使用。

02

先点击Query,进入该界面,接着点击2处的数据来源

03

点击TCGA provisional,进入TCGA数据站,会出现下面的界面。



可以看到一共有32个TCGA数据集,我们点击第一个肾上腺皮质癌,点击进去, 点击view summary



便会出现下面的界面



可以看到主要是包括了CNV的信息和Matution信息,Mutation 按照突变频率进行了排序,可以看到在肾上腺皮质癌中ZFPM1突变频率最高,CNV主要涵盖了两类分别是del和amp。当然还有一些生存曲线的图形。

04

看到了Mutation,我们怎么可以轻易放过呢?

点击红色框框箭头所指的地方,我们便可以下载最显著突变的基因了,进入该疾病的临床数据存储站,出现下面的界面,点击下载按钮,便可以下载该数据。



同样,我们点击箭头所指的地方可以下载Mutation Count文件

05

当然我们也可以通过Data Sets下载,首先,进入Data Sets。

06

接着我们找到Adrenocortical Carcinoma (TCGA, Provisional),进行数据下载



下载之后的数据如下,是一个压缩包,我们继续解压,发现包含的数据,很多,真的是一次下载多次使用。



我们发现我们需要下载的mutation数据就在里面,几乎就是把一种疾病的所有类型数据全部给下载了。

第二部分

UCSC-XENA工具

趁热打铁!还记得我们在RNAseq数据下载时,提到的主角UCSC-XENA工具吗?一个无编程的网页版工具,帮助我们轻松下载TCGA数据。我们继续点击鼠标,实现我们的TCGA_SNP数据下载梦。往期推送:

手把手教你用R语言下载TCGA数据:UCSCXenaTools

UCSC-XENA网址:

https://xena.ucsc.edu/

人家的界面长这样:



黄色框框是官网给的如何使用该网址的教程。

红色框框是我们需要点击进入的界面。

07

点击launch Xena,出现下面的界面,那数据藏在哪里了呢?

08

点击DATA Sets 进入数据存储站,出现下面的界面



可以看到在右侧的Active Data Hubs 包括了很多,不仅涵盖了TCGA还包括ICGA,Pan-Cancer Atlas Hub等数据节点。因为我们是研究TCGA,我们只需要选中TCGA就可以了。

09

选中TCGA,进入TCGA数据站,其包含的数据主要是下面38个

10

随便选择一个癌症,比如选择第一个AML,点击进去,出现下面的界面


我们发现该网站已经整理好了各类数据,包括CNV,DNA甲基化等,方便用户下载,大大方便了我们使用。接着我们找到SNV数据,如下,注意有两个点,一个是somatic mutation,一个是somatic non-silent mutation,我们选择somatic non-silent mutation,点击带有*号的数据,进入。

11

 点击之后,进入下面的界面:


点击红色框内的链接便可以进行数据下载了,下载之后的数据是一个压缩包,解压之后便可以使用了。

12

数据说明:


如上表格中,0代表未发生突变,1代表发生了突变,行名代表基因名。

Ok,今天的教程主要是带大家利用cBioportal/UCSC-XENA 进行无代码的 SNP数据下载,下期我们继续推出SNP数据下载的其他方式。



上一篇下一篇

猜你喜欢

热点阅读