了解下载的TCGA数据的临床情况

2020-05-31 本文已影响0人生信小鹏

TCGA数据库不仅仅存储了测序数据，更为珍贵的是TCGA数据库也存储了相关的临床信息，有了这些临床信息，后续可以进行多种分析，可以进行某个基因和临床预后的相关性分析，根据临床数据进行建模预测。总之，这一部分数据的深入挖掘一定是重头戏，通过这一部分数据和临床结合，能更好的贴近临床，贴近实际。

好了，依然是实践促进认知，直接以实例进行解读。

1. 使用TCGA官网数据进行整理

之前的数据下载中TCGA数据官网网页下载及gdc-client下载，从TCGA官网下载了这些文件

其中clinical文件下有有这两种文件

一种是TSV文件格式，另一种是json文件格式，所以后续可以有两种方法进行文件的整理。
tsv文件即Tab-separated values，指的是制表符分隔文件，与之类似的csv文件Comma-separated values，指的是逗号分隔符文件，后者更常见一些，所以使用R读取时，csv文件有自带的读取函数，tsv自行加载package再读取就会更方便一些。

1.1 读取json文件获得临床数据

1.1.1 从TCGA官网下载的json文件可以直接使用R读取，利用jsonlite 这个package中的fromJSON函数还是很便捷。

cli_kirc <- jsonlite::fromJSON("clinical.cart.2020-05-22.json")

1.1.2 读入之后，了解一下文件的特征

了解整个数据有什么

> class(cli_kirc)
[1] "data.frame"
> dim(cli_kirc)
[1] 530   4
> colnames(cli_kirc)
[1] "exposures"   "demographic" "diagnoses"   "case_id"

看似只有4列，其实这其中包含了很多的数据，从这当中也能深刻理解R数据存放的特点，数据框中可以放list，list里面可以接着存放data.frame。确实是很有趣的方面。
继续看看这四列还有什么信息。

exposures中存放了什么

> class(cli_kirc$exposures)
[1] "list"
> length(cli_kirc$exposures)
[1] 530
> class(cli_kirc$exposures[[1]])
[1] "data.frame"
> dim(cli_kirc$exposures[[1]])
[1]  1 12
> colnames(cli_kirc$exposures[[1]])
 [1] "created_datetime"   "cigarettes_per_day" "exposure_id"        "state"              "updated_datetime"  
 [6] "weight"             "alcohol_history"    "years_smoked"       "alcohol_intensity"  "height"            
[11] "bmi"                "submitter_id"

在暴露因素中可以看到存储了12中信息，其中 "submitter_id" 是连结其他数据的节点。

demographic 中存放的数据

> class(cli_kirc$demographic)
[1] "data.frame"
> dim(cli_kirc$demographic)
[1] 530  14
> colnames(cli_kirc$demographic)
 [1] "ethnicity"        "year_of_death"    "year_of_birth"    "age_at_index"     "gender"          
 [6] "state"            "updated_datetime" "demographic_id"   "days_to_birth"    "race"            
[11] "vital_status"     "submitter_id"     "created_datetime" "days_to_death"

人口统计数据中，存放了14种信息，同样，"submitter_id" 是连结其他数据的节点。

diagnoses 中存放的数据

> class(cli_kirc$diagnoses)
[1] "list"
> length(cli_kirc$diagnoses)
[1] 530
> class(cli_kirc$diagnoses[[1]])
[1] "data.frame"
> dim(cli_kirc$diagnoses[[1]])
[1]  1 29
> colnames(cli_kirc$diagnoses[[1]])
 [1] "primary_diagnosis"                 "last_known_disease_status"         "ajcc_pathologic_stage"            
 [4] "tissue_or_organ_of_origin"         "state"                             "classification_of_tumor"          
 [7] "updated_datetime"                  "prior_malignancy"                  "days_to_last_known_disease_status"
[10] "progression_or_recurrence"         "year_of_diagnosis"                 "prior_treatment"                  
[13] "morphology"                        "created_datetime"                  "ajcc_pathologic_m"                
[16] "tumor_stage"                       "synchronous_malignancy"            "ajcc_pathologic_n"                
[19] "tumor_grade"                       "diagnosis_id"                      "age_at_diagnosis"                 
[22] "treatments"                        "days_to_diagnosis"                 "days_to_last_follow_up"           
[25] "icd_10_code"                       "days_to_recurrence"                "site_of_resection_or_biopsy"      
[28] "submitter_id"                      "ajcc_pathologic_t"

诊断相关信息里面包含了29项信息，包含了我们非常关心的生存相关数据的收集，以及患者病理诊断的分级，TNM分期，病理诊断，治疗这些临床数据。那么有这些数据，下一步要怎么研究，那就要看自己的方向和兴趣了，这就体现了数据挖掘的魅力了，矿藏就在那里，就看用的人怎么用了，有些粗犷开发，有些细致提炼，这就是体现差距的地方了。

case id主要还是所下载文件夹的名称

1.1.3 以上数据的整理

上面数据的处理可以分别将三个数据集建立单独的数据，然后根据需要进行合并，提取需要的数据。

demographic <- cli_kirc$demographic
exposure <- cli_kirc$exposures
diagnoses <- cli_kirc$diagnoses

> class(demographic);class(exposure);class(diagnoses)
[1] "data.frame"
[1] "list"
[1] "list"

1.1 利用tsv文件进行数据的整理

利用从TCGA官网下载的tsv文件，就显得很简单了，限速步骤只是对tsv文件的读入R即可。经过对比，readr 这个package比较好用。

library(readr)
cli_k <- read_tsv(file = 'clinical.tsv')

看看这个数据的大小和特征

> class(cli_k)
[1] "spec_tbl_df" "tbl_df"      "tbl"         "data.frame" 
> dim(cli_k)
[1] 1060  149

要比json中读取的多很多，从列名看，因为当中有很多list中的内容没有展开，从观察项目，也就是行名来看，因为有些患者的治疗中有两种或几种治疗，在tsv文件中把这些都放在同等位置，所以相比于json文件中会多出这些。

实际上直接读入的tsv数据依然是比较复杂的类型，因为从数据类型中可以看出，本身就有四种类型，虽然这4种类型只是基于不同的数据读入模式，本质是有所类同的，可以说在具体分析中，具体对待。

接下来就是把相应的数据进行筛选，和测序数据进行合并，得到更多的挖掘信息。

2. 利用R package进行下载

针对于TCGA这样的宝库，肯定少不了有人做成R package，来解决TCGAS数据下载这些问题。虽然对于TCGA数据下载有好几种，但是仍然需要注意的是，这些R 包下载的数据的时效性是不能保证的，下载后最好还是能够看一看是否是最新的数据。TCGA官网对于临床数据的更新要比

2.1 利用RTCGA.clinical package进行下载

例子采用RTCGA.clinical package下载TCGA-BLCA数据的代码

library(RTCGA.clinical)
??RTCGA.clinical ##多多查看说明文档
BLCA_clinical <- BLCA.clinical
write.csv(BLCA_clinical,quote = F,"BLCA_clinical_Data.csv")

其实按照提取临床信息，上面的已经将临床数据下载到了，探索一下里面的数据有什么。

> class(BLCA_clinical)
[1] "data.frame"
> dim(BLCA_clinical)
[1]  412 2129

这个数据集列名确实很多，只需要将我们需要的列名挑选出来做先骨干的分析就可以，下面的是BLCA数据中，要做生存分析的数据。

BLCA_clinicaldata<-BLCA_clinical[c('patient.bcr_patient_barcode',
                                   'patient.vital_status',
                                   'patient.days_to_death',
                                   'patient.days_to_last_followup',
                                   'patient.race',
                                   'patient.age_at_initial_pathologic_diagnosis',
                                   'patient.gender',
                                   'patient.stage_event.pathologic_stage'
)]

str(BLCA_clinicaldata)
BLCA_clinicaldata[1:4,1:4]
rownames(BLCA_clinicaldata) <- NULL
BLCA_clinicaldata <- tibble::column_to_rownames(BLCA_clinicaldata, var = 'patient.bcr_patient_barcode')
##使用barcode，只是方便后续与测序数据衔接

看一看筛选后的数据

> str(BLCA_clinicaldata)
'data.frame':   412 obs. of  8 variables:
 $ patient.bcr_patient_barcode                : chr  "tcga-2f-a9ko" "tcga-2f-a9kp" "tcga-2f-a9kq" "tcga-2f-a9kr" ...
 $ patient.vital_status                       : chr  "alive" "dead" "alive" "alive" ...
 $ patient.days_to_death                      : chr  NA "364" NA NA ...
 $ patient.days_to_last_followup              : chr  "678" NA "2555" "3148" ...
 $ patient.race                               : chr  "white" "white" "white" NA ...
 $ patient.age_at_initial_pathologic_diagnosis: chr  "63" "66" "69" "59" ...
 $ patient.gender                             : chr  "male" "male" "male" "female" ...
 $ patient.stage_event.pathologic_stage       : chr  "stage iv" "stage iv" "stage iii" "stage iii" ...

其实以上的信息包括了barcode，status：即就是生存状态，days_to_death，days_to_last_followup ，age_at_initial_pathologic_diagnosisrace：诊断时间，我觉得也可以理解成发病时间，可以用这个时间做一些分析，gender 性别

2.2 利用TCGAbiolinks package进行下载

TCGAbiolinks是一个分析处理TCGA数据的R包，通过GDC API来查询和下载TCGA的数据，同时提供了差异分析，生存分析，富集分析等常见的分析功能

在bioconductor有这个包的整个说明和代码，可以对照进行。还有关于这个包的使用的讲解文章生信修炼手册的使用TCGAbiolinks下载TCGA的数据，生信技能树的TCGA数据下载—TCGAbiolinks包参数详解。

有文章对TCGA-biolinks的数据，Xene上面下载的数据和TCGA官网数据进行了比较，同样，结论依然是很多二次数据库更新不一定能跟得上TCGA的官网数据。文章见UCSC Xena和TCGAbiolinks的HNSC临床数据不一致。

所以总体而言，还是直接从TCGA官网进行下载数据会更新，当然更权威。