文献阅读 The Cancer Genome Atlas Pan
今天阅读了一篇较早的TCGA项目组在2013年发表于Nature的评论文章,题目为The Cancer Genome Atlas Pan-Cancer analysis project。虽然文章有一点老,但出于对TCGA的了解与理解,还是很有学习意义。
TCGA已经描绘并分析了大量的人类癌症多组学数据,因此可以整合相应数据,挖掘跨癌症类型的分子特征,并为临床治疗提供帮助。
文章分6点进行叙述:
1. Molecular profiling of single tumor types
癌症本质上是基因疾病。在早期,在oncogenes的识别(functional assays on genetic material from tumors in positive-selection systems)和tumor suppressor genes的识别(analyzing loss of heterozygosity)方面做出了一些成果。近期系统癌症基因组学项目,包括TCGA,已将新兴技术应用于特定肿瘤类型的分析。立足于 “disease-specific focus” ,发现新的致癌驱动因素和导致功能改变的基因,建立分子亚型的定义,在多组学基础上发现新的生物标志物。
Box 1写明了在2013年TCGA项目的未来任务和策略,现在看来计划实现得相当好,包括数据量的扩展,新技术的开发和应用,科研成果等,都对癌症研究产生了巨大的推动。
概念积累:
loss of heterozygosity - 杂合性缺失(LOH)是指位于一对同源染色体上的相同基因座的两个等位基因中的一个(或其中部分核苷酸片段)发生缺失,而与之配对的染色体上仍然存在的情况,如此丧失了成为杂合的可能性,即杂合性缺失。
chromothripsis - 染色体碎裂,一条染色体在复制过程被打碎,然后这些碎片以另一种顺序重组。
chromoplexy - which involve the breakage and rearrangement of chromosomes at multiple loci。 chromoplexy和chromothripsis的区别
kataegis - which involves hypermutational processes associated with genomic rearrangements。
2. Analysis across tumor types
大多数关于癌症的分子、病理和临床性质的研究都按照癌症类型被孤立(‘siloed’)。实际上,不同器官的癌症有许多共同的特征,而相反,来自同一器官的癌症往往截然不同。共享的分子模式将使一种疾病的病因和治疗发现可以应用于另一种疾病。因此,泛癌项目的目标是识别和分析定义癌症谱系的肿瘤基因组和表型中的畸变,以及识别超越特定谱系的畸变。
概念积累:
样本基因变异遵从长尾分布 (横坐标是各个基因,纵坐标是突变率)
长尾分布
3. The Pan-Cancer project
The Pan-Cancer project (1)The Pan-Cancer project (2)
数据集和相应结果存放在https://www.synapse.org/#!Synapse:syn300013/wiki/70804上,可注册账号后下载。
提出的问题:
- Can increases in statistical power help to distinguish new driver mutations from the background of passenger mutations as the sample size is increased by aggregating the 12 tumor types?
- What tissue associations underlie the major genomic structural changes in cancer?
- What pathways emerge as critical and potentially actionable when all mutational events
across many tissues are considered together? - Can an increase in the number of samples enhance analysis of the co-occurrence and
mutual exclusivity of gene aberrations and improve the ability to distinguish driver aberrations from passengers? - Can molecular subtypes be delineated to disentangle tissue-specific from tissue-independent
components of disease? - Which events actionable in one tumor lineage are also actionable in another tumor lineage, potentially increasing the range of indications for specific targeted therapeutics?
4. Limitations of analysis across tumor types
需要去除批次效应(batch effects)。
现有临床资料的性质和质量因癌症类型的不同而有很大差异,难以统一整合。
假阴性率的升高(如稀释一种疾病特有的重要突变)和假阳性率的升高。
肿瘤谱系发挥作用,泛癌分析需要考虑各种背景因素。
概念积累:
amplicon - 扩增子,DNA或RNA扩增后的一段核苷酸序列。
5. Future directions
扩展数据量,新技术应用,原发肿瘤与其相应局部复发或转移肿瘤的纵向研究,治疗反应数据的补充,WGS分析(深入研究基因组非编码区,关注启动子和增强子的破坏和非编码RNA的变异以及在肿瘤进化中的由可移动内源性和外源性DNA元件,如逆转录转座子和病毒造成的基因组整合过程),以系统为导向的通路和网络研究。
概念积累:
Transposon - 转座子,是一类DNA序列,能够在基因组中通过转录或逆转录,在内切酶的作用下,在其他基因座上出现。包括反转录转座子(I型转座子)和DNA转座子(II型转座子)。
6. From many tumors to the individual
临床应用
后记
本文成文时间较早,至今TCGA项目已经包含了33种癌症类型,超过1万个样本。Pan-cancer相关的项目研究已经非常成熟,“Pan-Cancer Atlas”泛癌图谱项目成果颇丰,27篇顶级文章已发表在Cell杂志及其高水平子刊上,https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html为相应链接,可进入并下载相关文章,个人感觉其中一些文章深奥且相当有难度,需要进一步精读。补充的数据文件可在TCGA官网下载https://gdc.cancer.gov/about-data/publications/pancanatlas。