生信分析工具包

聊UCSC xena的数据下载问题

2019-08-23  本文已影响0人  医科研

作者:白介素2


UCSC xena数据存储中心总览

UCSC xena的数据 存储仓库主要包括的数据有以下这些:

GDC Hub与TCGA hub

我们经常会使用 UCSC xena下载 TCGA数据, 值得注意的是,其中包括了两个数据来源。 这里我们来探索,这两个来源的数据下载有何区别:

GDC Hub

数据下载内容

首先来看GDC Hub的数据详情,我们以 BRCA的count数据为例:

image.png

数据下载时间

从官网的介绍来看,如果是 GDC数据集来源下载,其方式等同于在 2017年9月15日使用 api方法从官网下载了数据 注意:数据已经为log2(count+1)转化值,数据已经进行了merge,可直接进行注释,进行后续分析。 搞清楚了时间之后,我们继续往下看 对应的TCGA数据的更新时间:

image.png

数据更新

我们发现它对应TCGA官方数据的更新时间为 2017年4月22日Data Release 8.0,那么从该时间到 2019年8月之间的时间 TCGA数据又经过了哪些更新呢?

image.png

我们发现到现在为止,更新从 Data release 8.0到了 Data release 18.0,当然,其中很多更新可能是新数据的发布,跟我们自己研究的肿瘤无关。 下一个问题是:是否有更新数据与我们相关?,答案当然是:有! 比如说随访数据,生存资料,我们做预后分析,肯定用生存资料吧。

image.png

生存资料更新

我们发现在 2019年6月5日的一次更新中(其它更新不详细,我们举例说明这个问题),就有生存资料的更新,比如 生存状态,随访信息等,注意了:这些信息更新了,当然可能并不一定会很大程度的影响分析结果,但毕竟在偏离真实值,所以,我们还要再浑水摸鱼吗?


TCGA Hub

下载选项

同样,我们以 BRCA 数据为例,它提供的 RNA-seq数据下载包括了三种类别:

官方的答疑文档 (估计是问的人太多了)

image.png

这里再提供生信控的潘如飞老师对这个问题给出的一些见解 ,希望可以增加读者对这个问题的了解。

数据下载内容

image.png

同样可以看到,下载的数据仍然不最新的数据,与我们在 GDC数据集源下载的数据有同样的问题,数据未更新。并且,TCGA Hub数据是经过处理后的数据,能否直接用 limma等分析还需要打一个问号。

总结

经过以上探索,笔者建议下载 TCGA数据还是使用更新下,下载到最新的数据。推荐的方式有以下几种:

以上推荐不分先后,没有利益关系

广而告之

说一个事,鉴于简书平台在信息传播方面有不足之处,应粉丝要求,白介素2的个人微信平台已经开启,继续聊临床与科研的故事,R语言,数据挖掘,文献阅读等内容。当然也不要期望过高,微信平台目前的定位是作为自己的读书笔记,如果对大家有帮助最好。如果感兴趣, 可以扫码关注下。


qrcode_for_gh_9eaa04438675_258.jpg
上一篇下一篇

猜你喜欢

热点阅读