生信

TCGA数据分析系列(一)

2020-04-04  本文已影响0人  生信小课堂

公众号“生信小课堂”

TCGA数据分析课程:生物信息学教学

肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human

Genome Research

Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件。

TCGA中数据类型主要有以下几种

mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量

microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量

Clinical:病人的一般情况、诊治情况、生存情况、肿瘤分期等随访信息

Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值

Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化

Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量

Methylation:甲基化芯片测得的DNA甲基化数据

TCGA的样本命名

Project:所有TCGA样本名均以这个开头

TSS: Tissue source site,组织来源编码

详见组织来源编码

Participant:参与者编号

Sample:其中编号01~09表示肿瘤,10~19表示正常对照,最常见的是01和11

Vial:在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; B表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用B的样本数据

Portion:同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用

Analyte:分析的分子类型,对应关系如下所示

Plate:在一系列96孔板中的顺序,值大表示制板越晚

Center:测序或鉴定中心编码

TCGA数据下载方式

TCGA下载方式有很多种,主要包括

R语言下载

官网下载

在线数据库下载

小工具下载

以后我们会逐个介绍

TCGA在线分析数据库

TCGA在线分析数据库有已经很多,以后我们会选择既重要又好用的工具来学习

下回见。

公众号“生信小课堂”

TCGA数据分析课程:生物信息学教学

上一篇下一篇

猜你喜欢

热点阅读