手把手教你用R语言下载TCGA数据库:UCSCXenaTools
本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求
点击蓝字关注我们
各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推文。还记得它吗?
UCSC-XENA
或许你看了之前的推文,了解到了该网站,甚至亲自操作了一番,你这个时候或许会说,这种感觉不正是像极了爱情吗?
今天,我们学习一下,基于UCSC-XENA开发出的R包UCSCXenaTools.
在提到UCSCXenaTools该包的时候,我们或许需要了解一下该包的前身XenaR包,这个包提供了一个简单的UCSC Xena接口,可以获取一些UCSC Xena存储的信息,包括GDC、TCGA、ICGC、GTEx、CCLE等数据库的上千个数据集。特别是TCGA(hg19版本)的一部分数据UCSC做了非常好的标准化处理,但是有将近四年没有更新,UCSCXenaTools便是在此基础上开发出来的
1. UCSCXenaTools安装极其简单:
2. 加载该包:
可以看到,这里它还提供了github的地址,以及如果用这个包,如何在文章中引用。
3.使用XenaHub()可以获取所有的资源,另外可以通过参数指定感兴趣的,包括hosts,cohorts以及datasets。结果返回一个XenaHub对象。Hosts函数:Get hosts of XenaHub object;Cohorts函数:Get cohorts of XenaHub object;Datasets函数:Get datasets of XenaHub object
4. 为了简化hosts()的输入,我们可以使用hostName指定我们想要搜索TCGA的内容,如下:
结果如下:
5. 可以看到有1629个数据集,太多了。下面使用XenaFilter ()函数进行过滤,比如我们下载临床数据,如下,返回的对象依然是XenaHub:
6. 假如你只想选择跟肺癌相关的数据集,这个时候你还需要再加一些条件:
7. 如果你很清楚你想要做的,可以使用dplyr的管道操作符进行连续过滤,不过过滤后返回的还是XenaHub对象:
8. 检索下载,先构建一个query对象(当前还没有用类封装),就是一个数据框,存储了主机地址,下载的url等:
9.数据下载
默认XenaDownload函数将下载数据到当前目录的Xena_Data目录下,如果数据已经下载,将提示并不会下载,可以使用force=TRUE强制下载。
10. 数据下载之后就可以将数据导入R,背后用的是readr包的read_tsv函数
结果如下:
这个时候,我们就发现临床信息就被读进R里面了。
Ok,今天的教程主要是带大家体验TCGA基于R语言的第一种数据下载方式,下期我们继续推出TCGA的第二种编程方式下载,今天的数据下载先讲到这,下期再见。
代码获取方式:后台回复关键字“UCSC”,获取R代码