从CNS封面文章中找数据 | Science:人类原发性肿瘤染色
今天给大家分享的ATAC-seq数据资源来自2018年的Science封面文章,美国斯坦福大学研究人员绘制了23种癌症全基因组染色质可及性图谱,为癌症研究提供基础数据资源。
利用ATAC-seq对来自TCGA的涉及23种人类癌症类型的410个肿瘤样本进行染色质可及性分析,鉴定了近56.3万个DNA调节元件,绘制了796个全基因组染色质可及性图谱。
为什么要绘制癌症染色质可及性图谱?
癌症是全球死亡的主要原因之一。尽管人类基因组中2%的编码基因已经被广泛研究,但关于癌症中的非编码基因组和基因调控仍有许多内容需要进一步研究。
癌症基因组图谱(TCGA)系统地收集了人类原发性癌组织的DNA突变、甲基化、RNA表达等综合数据,已成为鉴定基因组变异、改变转录组变异和癌症亚型的宝贵资源。但这些肿瘤的基因调控结构在很大程度上是通过间接手段推断出来的。
DNA调控元件活性的一个特征就是染色质可及性,真核生物的基因组在染色质中被压缩,只有活跃的调控元件才能被细胞机制(如TFs)识别表达,因此,染色质的可及性与转录调控密切相关。ATAC-seq由于所需细胞量少,实验简单,可在全基因组范围内检测染色质可及性,已成为研究染色质可及性的首选技术方法。
癌症染色质可及性图谱主要分析结果
结合TCGA中丰富多样的正交数据类型,癌症中的染色质可及性区域可提供遗传和体细胞突变、DNA甲基化、远端基因调控以及最终影响癌症预后、治疗的基因表达变化之间的关键联系。
通过对远端调控元件的ATAC-seq信号进行样本间的聚类分析,发现这种聚类方式可以区分来自不同器官的不同肿瘤样本。将ATAC-seq与TCGA多组学数据进行整合,鉴定了大量假定的远端增强子,或可区分癌症的分子亚型。
通过整合WGS和ATAC-seq数据,分析基因表达与染色质可及性的全基因组相关性,发现远端调控元件与基因启动子之间可能存在数以万计的相互作用,包括癌症免疫治疗中的关键癌基因和靶点,如MYC、SRC、BCL2和PDL1,表明染色质可及性与远端调控的相互作用可能会影响癌症的发生或进展以及肿瘤对免疫治疗的反应。
Footprinting分析确定了癌症中不同的TF活性。
研究鉴定与肿瘤免疫治疗相关的DNA调控元件。
研究数据
本次研究中未在补充数据文件中提供的处理数据获取地址:
https://gdc.cancer.gov/about-data/publications/ATACseq-AWG
ATAC-seq原始数据和bam文件获取地址:
https://portal.gdc.cancer.gov/
人浆细胞样树突状细胞和髓样树突状细胞对应的ATAC-seq数据(本次研究中唯一非TCGA数据)已保存至SRA,项目编号:PRJNA491478。
首发公号:国家基因库大数据平台
参考文献
Corces MR, Granja JM, Shams S, et al. The chromatin accessibility landscape of primary human cancers.Science. 2018 Oct 26;362(6413). pii: eaav1898.
图片来源:均来源于参考文献,如有侵权请联系删除。