
TCGA数据库(GDC Data User's Guide)学习

1. Introduction

GDC(Genomic Data Commons, 基因组数据共享中心)接收、处理和分发来自癌症研究项目的基因组、临床和生物样本数据。

2. GDC Data Model


2.1 Entities实体

尽管GDC数据模型可能包含一些循环元素,但将其视为由互连实体组成的有向无环图(Directed Acyclic Graph,DAG)会很有帮助。GDC中的每个实体都有一组属性和链接。

2.2 Properties属性


2.3 Links连接


2.4 GDC Data Dictionary

GDC Data Dictionary(GDC数据字典)根据实体类型确定实体可以具有哪些属性和链接。功能相似的实体类型归入同一个category。例如,实体类型slide_image和submitted_unaligned_reads属于 data_file category,该category包含表示可下载文件的实体。

2.5 GDC标识码(GDC Identifiers)

2.5.1 UUID

创建实体时,会为其分配版本4通用唯一标识符(universally unique identifier, UUID)形式的唯一标识符。UUID唯一标识GDC中的实体,并存储在实体的id属性中。

2.5.2 Program name,Project Code, and Project ID

2.5.3Submitter ID


2.6 数据获取流程和工具


2.6.1 open和controlled的访问数据

GDC中的某些数据是开放访问的,这意味着无需身份验证或授权即可访问它。其他数据是受控制的访问,这意味着访问需要dbGaP授权和eRA Commons身份验证。在研究参与者的知情同意的情况下,根据Data Access Policies确定数据集是开放的还是受控的。

2.6.2 数据获取流程

GDC Data Potal(GDC数据门户)为用户提供基于网络的浏览、查询和下载数据的设施。




GDC Data Portal GDC Data Transfer Tools GDC API
基于 Web 客户端 程序

3. Data Security

略,详见GDC Data Security

4. file format(文件格式)

4.1 MAF

Mutation Annotation Format(MAF)是一个制表符分隔的文本文件,包含来自VCF文件的整合过的突变信息,在project级别生成。

4.1.1 MAF文件概述

MAF文件由 Somatic Aggregation Workflow 生成。GDC会在两个权限级别上生成MAF文件:protected.mafsomatic.maf(开放访问)。每个GDC项目调用不同的pipeline就会产生一个MAF文件。通过汇总每个项目的pipeline、整合带有GDC注释的VCF文件以生成MAF文件。带注释的VCF文件经常记录多个转录本上变体,而从VCF(*protected.maf)生成的MAF只记录受最严重影响的那个。

4.1.2 Somatic MAF File Generation


4.1.3 Protected MAF File Structure

下表描述了Protected MAF中的列及其定义。请注意,除了去掉最后六列外,Somatic MAF(open)结构是相同的。

1-Hugo_Symbol HUGO Symbol的基因(HUGO symbols总是在全部大写)。“unknow”用于与基因不对应的区域
2-Enter_Gene_Id Entrez gene ID(整数)。“ 0”用于与基因区域或Ensembl ID不对应的区域
3-Center 一个或多个基因组测序中心报告了该变异
4-NCBI_Build 用于比对的参考基因组(GRCh38)
5-Chromosome 受影响的染色体(chr1)
6-Start_Position 报告的变体在基因组参考序列上的最低数字位置。变异起始座标
7-End_Position 报告的变体在基因组参考序列上的最高数字基因组位置。变异结束坐标
8-Strand 报告的等位基因的基因组链。目前,所有变体都将报告正链:“ +”
9-Variant_Classification 变异等位基因的翻译作用
10-Variant_Type 突变类型。TNP(三核苷酸多态性)类似于DNP(二核苷酸多态性),但连续三个核苷酸。ONP(寡核苷酸多态性)类似于TNP,但连续运行四个或更多(SNP,DNP,TNP,ONP,INS,DEL或合并)
11-Reference_Allele 正链参考等位基因在此位置。包括删除的序列(用于删除)或“-”(用于插入)
12-Tumor_Seq_Allele1 肿瘤测序(发现)等位基因1的主要数据基因型。缺失的“-”符号代表变异。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基
13-Tumor_Seq_Allele2 肿瘤测序(发现)等位基因2
14-dbSNP_RS 来自 dbSNP数据库rs-IDs,如果在使用的任何数据库中均未找到,则为“ novel”;如果没有dbSNP记录,但在其他数据库中找到,则为null
15-dbSNP_Val_Status dbSNP验证状态报告为以分号分隔的状态列表。如果存在多个,则采用所有rs-ID的并集
16-Tumor_Sample_Barcode 肿瘤样本的等分条形码
17-Matched_Norm_Sample_Barcode 匹配的正常样品的等分条形码
18-Match_Norm_Seq_Allele1 主要数据基因型。匹配的正常测序等位基因1.缺失的“-”符号代表变体。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基(在体细胞MAF中清除)
19-Match_Norm_Seq_Allele2 匹配的正常测序等位基因2
20-Tumor_Validation_Allele1 来自正交技术的辅助数据。等位基因1的肿瘤基因分型(验证)。缺失的“-”符号代表变体。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基
21-Tumor_Validation_Allele2 来自正交技术的辅助数据。等位基因2的肿瘤基因分型(验证)
22-Match_Norm_Validation_Allele1 来自正交技术的辅助数据。等位基因1的匹配正常基因分型(验证)。缺失的“-”符号代表变异。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基(在体细胞MAF中清除)
23-Match_Norm_Validation_Allele2 来自正交技术的辅助数据。等位基因2的匹配正常基因分型(验证)(在体细胞MAF中清除)
24-Verification_Status 第二次通过是通过独立尝试使用与主要数据源相同的方法得出的。通常为3730 Sanger测序保留
25-Validation_Status 正交技术的第二遍结果
26-Mutation_Status 对体细胞,种系,LOH,转录后修饰,未知或无突变的评估。该字段中允许的值受Validation_Status字段中的值约束
27-Sequencing_Phase TCGA测序阶段(如果适用)。在所考虑的目标发生变化的任何情况下,阶段都应发生变化
28-Sequencing_Source 用于产生用于测序的分析物的分子分析类型。允许的值是SRA 1.5 library_strategy字段值的子集。此子集与CGHub上使用的子集匹配
29-Validition_Method 用于验证调用的测定平台
30-Score 未使用
31-BAM_File 未使用
32-Sequencer 用于产生初级序列数据的仪器
33-Tumor_Sample_UUID GDC等分试样UUID用于肿瘤样品
34-Matched_Norm_Sample_UUID 匹配正常样品的GDC等分试样UUID
35-HGVSc HGVS建议格式的变体编码顺序
36-HGVSp HGVS建议格式的变体蛋白序列。“ p。=”表示蛋白质没有变化
37-HGVSp_Short 与HGVSp列相同,但使用1个字母的氨基酸代码
38-Transcript_ID 受变异影响的转录本的ENSEMBL ID
39-Exon_Number 外显子数(来自总数)
40-t_depth 肿瘤BAM中该基因座的read深度
41-t_ref_count read深度支持肿瘤BAM中的参考等位基因
42-t_alt_count read支持肿瘤BAM中变异等位基因的深度
43-n_depth 正常BAM中此基因座的read深度
44-n_ref_count 正常BAM中支持参考等位基因的read深度(在体细胞MAF中清除)
45-n_alt_count 支持正常BAM中变异等位基因的read深度(在Somatic MAF中清除)
46-all_effects 以分号分隔的所有可能的变体效果列表,按优先级排序([符号,结果,HGVSp_Short,Transcript_ID,RefSeq,HGVSc,Impact,Canonical,Sift,PolyPhen,Strand])
47-Allele 用于计算结果的变异等位基因
48-Gene 受影响基因的稳定整合体ID
49-Feature 功能的稳定Ensembl ID(transcript, regulatory, motif)
50-Feature_type 功能类型。当前是Transcript, RegulatoryFeature, MotifFeature (or blank))
51-One_Consequence 标准转录本的唯一结果 sequence ontology术语
52-Consequence 此变体的后果类型; sequence ontology项目
53-cDNA_Position 碱基对在cDNA序列中的相对位置(以分数表示)。如果变体未出现在cDNA中,则分子显示为“-”符号
54-CDS_position 碱基对在编码序列中的相对位置。如果变体未出现在编码序列中,则分子显示为“-”符号
55-Protein_Position 蛋白质中受影响氨基酸的相对位置。如果变体未出现在编码序列中,则分子显示为“-”符号
56-Amino_acids 仅当变异影响蛋白质编码序列时才给出
57-Codons 带有大写变体碱基的替代密码子
58-Existing_variation 现有变化的已知标识符
59-ALLELE_NUM 输入的等位基因编号;0是参考,1是第一个替代,依此类推。
60-DISTANCE 从变体到转录本的最短距离
61-TRANSCRIPT_STRAND 转录本/特征所在的DNA链(1或-1)
62-SYMBOL 基因符号
63-SYMBOL_SOURCE 基因符号的来源
64-HGNC_ID HUGO基因命名委员会的基因标识符(如果适用)
65-BIOTYPE Transcript的生物型
66-CANONICAL 标记(YES)表示基于VEP的规范转录本(翻译时间最长)已用于该基因。如果不是,则该值为null
67-CCDS 此转录本的CCDS标识符(如果适用)
68-ENSP 受影响的转录本的Ensembl蛋白质标识符
69-SWISSPROT UniProtKB / Swiss-Prot加入
70-TREMBL 蛋白质产品的UniProtKB / TrEMBL标识符
71-UNIPARC 蛋白质产品的UniParc标识符
72-RefSeq 此转录本的RefSeq标识符
73-SIFT SIFT预测和/或得分,两者均作为预测(得分)
74-PolyPhen PolyPhen预测和/或得分
75-EXON 外显子数(总数中)
76-INTRON 内含子编号(总数中)
77-DOMAINS 任何重叠蛋白质结构域的来源和标识符
78-GMAF 非参考等位基因和现有变异的频率( in 1000 Genomes
79-AFR_MAF 非洲人群-1000 Genomes中非参考等位基因和现有变异的频率
80-AMR_MAF 1000 Genomes-美国人群中非参考等位基因和现有变异的频率
81-ASN_MAF 1000 Genomes-亚洲人群中非参考等位基因和现有变异的频率
82-EAS_MAF 1000 Genomes-东亚人群的非参考等位基因和现有变异的频率
83-EUR_MAF 1000 Genomes-欧洲人群中非参考等位基因和现有变异的频率
84-SAS_MAF 1000 Genomes-南亚人群的非参考等位基因和现有变异的频率
85-AA_MAF 非参考等位基因和现有变异的频率 NHLBI-ESP非洲裔美国人群
86-EA_MAF NHLBI-ESP欧美人群中非参考等位基因和现有变异的频率
87-Clin_SIG dbSNP变异体的临床意义
88-SOMATIC 在Existing_variation(0、1或null)下报告的每个ID的体细胞状态
89-PUBMED 引用现有变体的出版物的Pubmed ID
90-MOTIF_NAME 在此位置对齐的转录因子结合图谱的来源和标识符
91-MOTIF_POS 对齐的TFBP中变化的相对位置
92-HIGH_INF_POS 指示变体是否落在转录因子结合图谱(TFBP)的较高信息位置的标志(Y,N或null)
93-MOTIF_SCORE_CHANGE TFBP参考序列和变异序列的基序得分差异
94-IMPACT 结果类型的影响修饰符
95-PICK 指示此结果数据块是否由VEP的 pick feature(1或null)
96-VARIANT_CLASS 序列本体变体类
97-TSL Transcript support level,基于独立的RNA分析
98-HGVS_OFFSET 表示此变体的HGVS表示法已移动多少个碱基
99-PHENO 指示现有变体是否与表型,疾病或性状相关(0、1或null)
100-MINIMISED 此变量中的等位基因在结果计算之前已转换为最小表示形式(1或null)
101-ExAC_AF 来自的全球等位基因频率 ExAC
102-ExAC_AF_Adj 从ExAC调整的全球等位基因频率
103-ExAC_AF_AFR ExAC的非洲/非裔美国人等位基因频率
104-ExAC_AF_AMR ExAC的美国等位基因频率
105-ExAC_AF_EAS ExAC的东亚等位基因频率
106-ExAC_AF_FIN ExAC的芬兰等位基因频率
107-ExAC_AF_NFE ExAC的非芬兰欧洲等位基因频率
108-ExAC_AF_OTH ExAC的其他等位基因频率
109-ExAC_AF_SAS ExAC的南亚等位基因频率
110-GENE_PHENO 指示变体映射到的基因是否与表型,疾病或性状相关(0、1或null)
111-FILTER 从输入VCF复制。这包括由变体调用程序和DNA-Seq管道中使用的其他外部软件直接实现的过滤器。有关其他详细信息,请参见下文。
112-CONTEXT 每个VCF规格的参考等位基因及其五个侧翼碱基对
113-src_vcf_id 输入的VCF文件的GDC UUID
114-tumor_bam_uuid 肿瘤bam文件的GDC UUID
115-normal_bam_uuid 普通bam文件的GDC UUID
116-case_id 案件的GDC UUID
117-GDC_FILTER GDC滤波器普遍应用于所有MAF
119-MC3_Overlap 指示该区域是否与同一样本对的MC3变体重叠
120-GDC_Validation_Status GDC实施有效性检查。有关详细信息,请参见下面的注释部分(#5)
121-GDC_Valid_Somatic 是非题(不适用于躯体MAF)
122-vcf_region 用冒号分隔的字符串,包含来自VCF文件的CHROM,POS,ID,REF和ALT列(例如,chrZ:20:rs1234:A:T)(不在Somatic MAF中)
123-vcf_info VCF中的INFO列(不在Somatic MAF中)
124-vcf_format VCF中的FORMAT列(不在Somatic MAF中)
125-vcf_tumor_gt VCF的肿瘤样本基因型列(不在Somatic MAF中)
126-vcf_normal_gt 来自VCF的正常样本基因型列(不在体细胞MAF中)

4.1.4 使用MAF时参数的注意事项

4.1.5 FILTER(111列)值的定义

4.1.6 Impact Categories

4.2 VCF

4.2.1 VCF文件介绍

The GDC DNA-Seq somatic variant-calling pipeline compares a set of matched tumor/normal alignments and produces a VCF file. VCF files report the somatic variants that were detected by each of the four variant callers. Four raw VCFs (Data Type: Raw Simple Somatic Mutation) are produced for each tumor/normal pair of BAMs. Four additional annotated VCFs (Data Type: Annotated Somatic Mutation) are produced by adding biologically relevant information about each variant.

The GDC VCF file format follows standards of the Variant Call Format (VCF) Version 4.1 Specification. Raw Simple Somatic Mutation VCF files are unannotated, whereas Annotated Somatic Mutation VCF files include extensive, consistent, and pipeline-agnostic annotation of somatic variants.

4.2.2 VCF文件结构

Metadata header

A VCF file starts with lines of metadata that begin with ##. Some key components of this section include:

information about the study participant (


), including:

sample information, including:

Format of

additional information


A list of IDs for the contiguous DNA sequences that appear in the reference genome used to produce VCF files

Column Header Line

Each variant is represented by a row in the VCF file. Below each of the columns are described:

  1. CHROM: The chromosome on which the variant is located
  2. POS: The position of the variant on the chromosome. Refers to the first position if the variant includes more than one base
  3. ID: A unique identifier for the variant; usually a dbSNP rs number if applicable
  4. REF: The base(s) exhibited by the reference genome at the variant's position
  5. ALT: The alternate allele(s), comma-separated if there are more than one
  6. QUAL: Not populated
  7. FILTER: The names of the filters that have flagged this variant. The types of filters used will depend on the variant caller used.
  8. INFO: Additional information about the variant. This includes the annotation applied by the VEP.
  9. FORMAT: The format of the sample genotype data in the next two columns. This includes descriptions of the colon-separated values.
  10. NORMAL: Colon-separated values that describe the normal sample
  11. TUMOR: Colon-separated values that describe the tumor sample

See Variant Call Format (VCF) Version 4.1 Specification for details.

4.2.3 GDC INFO fields

Field Description 中文描述
Allele The variant allele used to calculate the consequence 用于计算结果的变异等位基因
Consequence Consequence type of this variant 此变体的后果类型
IMPACT The impact modifier for the consequence type 结果类型的影响修饰符
SYMBOL The HUGO gene symbol HUGO基因符号
Gene Ensembl stable ID of the affected gene 整合受影响基因的稳定ID
Feature_type Type of feature. Currently one of Transcript, RegulatoryFeature, MotifFeature. 功能类型。目前是文字记录,监管功能,MotifFeature之一。
Feature Ensembl stable ID of the feature 整合功能的稳定ID
BIOTYPE The type of transcript or regulatory feature (e.g. protein_coding) 转录本或调控功能的类型(例如,protein_coding)
EXON Exon number (out of total exons) 外显子数(外显子总数)
INTRON Intron number (out of total introns) 内含子数量(在所有内含子中)
HGVSc The HGVS coding sequence name HGVS编码序列名称
HGVSp The HGVS protein sequence name HGVS蛋白序列名称
cDNA_position Relative position of base pair in cDNA sequence 碱基对在cDNA序列中的相对位置
CDS_position Relative position of base pair in coding sequence 碱基对在编码序列中的相对位置
Protein_position Relative position of the affected amino acid in protein 蛋白质中受影响氨基酸的相对位置
Amino_acids Change in amino acids (only given if the variant affects the protein-coding sequence) 氨基酸变化(仅在变体影响蛋白质编码序列时给出)
Codon The affected codons with the variant base in upper case 带有大写变体碱基的受影响密码子
Existing_variation Known identifier of existing variant; usually a dbSNP rs number if applicable 现有变体的已知标识符;如果适用,通常是一个dbSNP rs号
ALLELE_NUM Allele number from input; 0 is reference, 1 is first alternate, etc. 输入的等位基因编号;0是参考,1是第一个替代,依此类推。
DISTANCE Shortest distance from variant to transcript 变体到转录本的最短距离
STRAND The DNA strand (1 or -1) on which the transcript/feature lies 转录本/特征所在的DNA链(1或-1)
FLAGS Transcript quality flags 成绩单质量标志
VARIANT_CLASS Sequence Ontology variant class 序列本体变体类
SYMBOL_SOURCE The source of the gene symbol 基因符号的来源
CANONICAL A flag indicating if the transcript is denoted as the canonical transcript for this gene 一个标志,指示该转录本是否被表示为该基因的规范转录本
TSL Transcript support level 笔录支持级别
APPRIS APPRIS isoform annotation APPRIS同种型注释
CCDS The CCDS identifer for this transcript, where applicable 适用于此笔录的CCDS标识符
ENSP The Ensembl protein identifier of the affected transcript 受影响的转录本的Ensembl蛋白质标识符
SWISSPROT UniProtKB/Swiss-Prot identifier of protein product 蛋白产品的UniProtKB / Swiss-Prot标识符
TREMBL UniProtKB/TrEMBL identifier of protein product 蛋白质产品的UniProtKB / TrEMBL标识符
UNIPARC UniParc identifier of protein product 蛋白质产品的UniParc标识符
RefSeq RefSeq gene ID RefSeq基因ID
GENE_PHENO Indicates if the gene is associated with a phenotype, disease or trait 指示基因是否与表型,疾病或性状相关
SIFT The SIFT prediction and/or score, with both given as prediction (score) SIFT预测和/或分数,两者均作为预测(分数)
PolyPhen The PolyPhen prediction and/or score PolyPhen预测和/或分数
DOMAINS The source and identifier of any overlapping protein domains 任何重叠蛋白质结构域的来源和标识符
HGVS_OFFSET Indicates by how many bases the HGVS notations for this variant have been shifted 表示此变体的HGVS表示法已移动多少个碱基
GMAF Non-reference allele and frequency of existing variant in 1000 Genomes 1000个基因组中现有基因的非参考等位基因和频率
AFR_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined African population 非洲人口总数1000个基因组中非参考等位基因和现有变异的频率
AMR_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined American population 1000个基因组合并的美国人群中非参考等位基因和现有变异的频率
EAS_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined East Asian population 1000个基因组合并的东亚人群的非参考等位基因和现有变异的频率
EUR_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined European population 欧洲人群中1000个基因组中非参考等位基因和现有变异的频率
SAS_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined South Asian population 1000个基因组合并的南亚人群的非参考等位基因和现有变异的频率
AA_MAF Non-reference allele and frequency of existing variant in NHLBI-ESP African American population NHLBI-ESP非裔美国人人群中非参考等位基因和现有变异的频率
EA_MAF Non-reference allele and frequency of existing variant in NHLBI-ESP European American population NHLBI-ESP欧美人群中非参考等位基因和现有变异的频率
ExAC_MAF Frequency of existing variant in ExAC combined population ExAC合并人群中现有变体的频率
ExAC_Adj_MAF Adjusted frequency of existing variant in ExAC combined population ExAC合并人群中现有变体的调整频率
ExAC_AFR_MAF Frequency of existing variant in ExAC African/American population ExAC非洲/美国人口中现有变体的频率
ExAC_AMR_MAF Frequency of existing variant in ExAC American population ExAC美国人口中现有变体的频率
ExAC_EAS_MAF Frequency of existing variant in ExAC East Asian population ExAC东亚人口中现有变体的频率
ExAC_FIN_MAF Frequency of existing variant in ExAC Finnish population ExAC芬兰人口中现有变体的频率
ExAC_NFE_MAF Frequency of existing variant in ExAC Non-Finnish European population ExAC非芬兰欧洲人口中现有变体的频率
ExAC_OTH_MAF Frequency of existing variant in ExAC combined other combined populations ExAC中现有变体的出现频率加上其他合并人群
ExAC_SAS_MAF Frequency of existing variant in ExAC South Asian population ExAC南亚人口中现有变体的频率
CLIN_SIG Clinical significance of variant from dbSNP dbSNP变异体的临床意义
SOMATIC Somatic status of existing variant(s) 现有变体的体细胞状态
PHENO Indicates if existing variant is associated with a phenotype, disease or trait 指示现有变体是否与表型,疾病或性状相关
PUBMED Pubmed ID(s) of publications that cite existing variant 引用现有变体的出版物的公开ID
MOTIF_NAME The source and identifier of a transcription factor binding profile aligned at this position 在此位置对齐的转录因子结合图谱的来源和标识符
MOTIF_POS The relative position of the variation in the aligned TFBP 对齐的TFBP中变化的相对位置
HIGH_INF_POS A flag indicating if the variant falls in a high information position of a transcription factor binding profile (TFBP) 指示变体是否落在转录因子结合图谱(TFBP)的较高信息位置的标记
MOTIF_SCORE_CHANGE The difference in motif score of the reference and variant sequences for the TFBP TFBP参考序列和变异序列的基序得分差异
EVIDENCE Evidence that the variant exists 该变体存在的证据


