使用GDC下载TCGA肿瘤患者的临床信息
2019-08-21 本文已影响0人
生信修炼手册
欢迎关注”生信修炼手册”!
在GDC中,对肿瘤患者的临床信息进行了标准化,分成了以下7个类别
-
Demographic
-
Diagnosis
-
Exposure
-
Family History
-
Follow Up
-
Molecular Test
-
Treatment
在以下链接中,提供临床信息的具体列表,共有200多项
https://gdc.cancer.gov/about-data/data-harmonization-and-generation/clinical-data-harmonization
其中有20项临床信息是必须的,展示如下
在GDC中,临床信息的下载和普通文件是类似的,在Repository
中,数据类型选择Clinical
, 示意如下
当然可以根据Cases
的属性在进行过滤,过滤之后,在右侧可以看到文件的列表,示意如下
可以看到,原始的临床信息采用了XML
格式来存储,在改文件中保存的信息更加全面。将对应的文件添加到Cart
中,可以进行下载,示意如下
如果需要下载原始的文件,可以通过点击Download
, 下载manifest文件,通过gdc-client来下载,这样做需要后期自己读取XML文件中的信息,在进行整理。
对于临床信息,同时还提供了TSV
和JSON
的下载格式,其中TSV
格式特别的友好,用Excel打开即可查看,示意如下
列数较多,这里只截取了部分。需要注意,这种方式得到的临床信息相比XML文件会少一点,但是对于生存分析等常用场景来说,也足够了。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!