CCDA-seq:一种单分子层级研究ecDNA染色质开放性的新技
2021年8月23日,华大基因唐冲博士团队在表观遗传与染色质研究权威期刊Epigenetics & Chromatin上发表题为"Sequencing of methylase-accessible regions in integral circular extrachromosomal DNA reveals differences in chromatin structure"的论文,开发出一种单分子层级研究ecDNA染色质开放性的新技术 —— CCDA-seq。
此项研究中Nanopore平台原始测序数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号为:CNP0001720。
*上述研究数据为受控数据。如有下载需求请向国家基因库数据受控中心(CDA)申请授权。
研究背景
最近几年的研究表明,染色体外环状DNA(ecDNA)可以促进癌基因扩增,驱动肿瘤进化,并具有遗传异质性,在癌症发生中发挥着关键作用[1,2,3,4]。但由于缺乏足够的分子分析技术,尽管ecDNA自1964年以来就已为人所知,对其具体作用的阐明却一直进展缓慢。
目前的研究主要通过拷贝数变异(如Amplicon Architect)[5]和识别ecDNA junction位点(如Circle-Map和CIRC_finder)[6,7]等方法从测序数据中识别ecDNA。但是对ecDNA功能表观遗传学的研究还很缺乏。而了解全基因组范围ecDNA的染色质状态和转录状态是至关重要的,有助于促进对ecDNA及其在癌基因表达中的作用的深层认识。
用传统的ATAC-Seq和Chip-Seq等方法进行ecDNA研究时需要将DNA打断,进行短片段测序,配合的计算方法大部分是通过检测junction位点来识别ecDNA,所以只能揭示邻近junction区域的染色质可及性和DNA结合蛋白修饰,而不能提供完整的ecDNA染色质状态以及中远端调控元件之间的关系。另外,传统方法的数据分析基于peak calling策略,无法提供单分子级的ecDNA结构和表观遗传信息,所以也无法获得不同状态下ecDNA分子的表观异质性。近两年,基于单分子长读长测序方法开发的nanoNOMe-seq[8]、SMAC-seq[9]和Fiber-seq[10]技术,可以同时获得单个DNA分子的碱基信息和甲基化信息,已经在单分子表观遗传异质性与调控元件远端互作方面取得了应用,但在ecDNA领域还未见报道。
研究成果
该研究利用m6A MTase甲基转移酶对基因组DNA进行处理,获得单分子水平的染色质开放性区域的m6A DNA甲基化修饰((图1A)。为了提高ecDNA捕获效率,该方法还引入外切酶去除线性基因组DNA并通过纳米孔测序对完整的ecDNA进行测序。对生成的数据,首先通过junction序列识别ecDNA分子,并动态地将序列片段映射到基因组中(图1B)。基于junction的位置,重新组装部分ecDNA序列作为新的参考,并根据重组后的ecDNA序列识别出m6A信号,以防止juction区域的信号产生偏差,并且重构了完整的ecDNA(图1B)。
图1 流程概况A. 左为ATAC-seq+ecDNA,右为CCDA-seq+ecDNA;B. 生信分析流程为了提高m6A甲基化判读的准确性,该方法增加了阴性样本进行m6A甲基化的识别,通过高斯混合模型对calling的概率值分布进行拟合,去除了背景噪声(图2)。并且通过与DNase-seq进行比较,CCDA-seq与DNase-seq数据在高表达基因的转录起始位点周围显示了相似的核小体模式,在不同分辨率的基因组尺度上也具有高度的一致性(图3、图4)。测序reads长度在10到100 kb之间,比传统ATAC-seq中观察到的Junction区域宽50倍(图5)。
图2 经处理和未处理样品的m6A甲基化概率分布A. 阴性样本;B. 甲基转移酶标记样本 图3 高表达基因在转录起始位点周围的染色质可及性 图4 CCDA-seq信号与DNase-seq染色质可达性信号在基因组上的分布 图5 ONT reads长度分布进一步,通过比较ecDNA和同源线性DNA的平均染色质可及性,发现ecDNA染色质的可及性大部分是高度开放的,并且比线性DNA的染色质可及性更高,强化了ecDNA扩增会导致更高的致癌基因转录的普遍观点。(图6)RNA-seq数据分析显示,ecDNA高表达基因340个(25% rank),中表达基因464个(25-75% rank),低表达基因589个(75%-100% rank),说明并不是所有的ecDNA基因都是高表达的(图7)。通过分析转录起始/终止位点的附近的染色质可及性信号,CCDA-seq准确定位到NDR (nucleosome depletion regions)(图8)。
图6 ecDNA和线性DNA中的甲基化率密度分布 图7 ecDNA和线性DNA上基因区域的平均甲基化率 图8 转录起始位点与转录终止位点上下游ecDNA与线性DNA的信号值分布为了进一步探索ecDNA的功能,该方法对ecDNA单分子数据进行组装,重构出完整ecDNA,并且ecDNA上携带完整的致癌基因。如TSG101 (Tumor Susceptibility Gene 101.), 对ecDNA上的基因进行Gene Ontology分析显示富集到与癌症显著相关的通路,如GTPase activator activity。
图9 完整的ecDNA 图10 ecDNA相关基因的gene ontology分析CCDA-seq 提供了单分子分辨率下数千碱基长度的染色质状态,通过比较ecDNA和线性基因组DNA中的单分子水平的染色质信号分布,观察到线性DNA和ecDNA中的多种染色质可及性状态,线性DNA (chr10: 4238321 - 42389251)的染色质结构采用两种不同的构象:一种是核小体不活动状态,另一种是由于极高的转录活性而基本缺乏核小体的状态,而ecDNA中观察到具有高度异质性的核小体耗尽/占据模式,在bulk ATAC-seq中则无法获得不同状态下分子的表观异质性(图11)。
接下来,通过评估核小体定位相关性研究了ecDNA和线性基因组DNA的共可及性模式,与线性DNA相比,ecDNA中的核小体具有更高的相关性,并且ecDNA中的作用距离更远,表现出远程染色质相互作用(图12)。
图11 线性DNA与ecDNA单分子水平的染色质信号分布A. 如图所示是覆盖线性DNA区域chr10: 4238321 - 42389201的所有reads。方框突出显示了活性和非活性染色质;B. 显示的是覆盖ecDNA区域chr10: 42383201 - 42389201的所有reads 图12 线性DNA与ecDNA的染色质共可及性概况(chr16:46407201 - 46410201)研究意义
总体来说,利用CCDA-seq,观察到了开放染色质区域中ecDNA的多样性,在数千碱基长度尺度上定位到了核小体的分布,以及量化了单分子分辨率下远端调控元件的染色质状态的相关性,揭示了单分子水平线性DNA与ecDNA不同的染色质状态。CCDA-seq有助于更全面地了解ecDNA表观基因组的调控,为ecDNA调控的独特机制提供深入的见解。
首发公号:国家基因库大数据平台
参考文献
[1] Wu S, Turner KM, Nguyen N, Raviram R, Erb M, Santini J, et al. Circular ecDNA promotes accessible chromatin and high oncogene expression. Nature. 2019;575(7784):699-703.
[2] Turner KM, Deshpande V, Beyter D, Koga T, Rusert J, Lee C, et al. Extrachromosomal oncogene amplification drives tumour evolution and genetic heterogeneity. Nature. 2017;543(7643):122-5.
[3] Paulsen T, Kumar P, Koseoglu MM, Dutta A. Discoveries of Extrachromosomal Circles of DNA in Normal and Tumor Cells. Trends Genet. 2018;34(4):270-8.
[4] Verhaak RGW, Bafna V, Mischel PS. Extrachromosomal oncogene amplification in tumour pathogenesis and evolution. Nature Reviews Cancer. 2019;19(5):283-8 %@ 1474-768.
[5] Deshpande V, Luebeck J, Nguyen N-PD, Bakhtiari M, Turner KM, Schwab R, et al. Exploring the landscape of focal amplifications in cancer using AmpliconArchitect. Nature communications. 2019;10(1):1-14 %@ 2041-1723.
[6] Prada-Luengo I, Krogh A, Maretty L, Regenberg B. Sensitive detection of circular DNAs at single-nucleotide resolution using guided realignment of partially aligned reads. BMC Bioinformatics. 2019;20(1):663.
[7] Kumar P, Kiran S, Saha S, Su Z, Paulsen T, Chatrath A, et al. ATAC-seq identifies thousands of extrachromosomal circular DNA in cancer and cell lines. Science Advances. 2020;6(20):eaba2489 %@ 375-548.
[8] Lee I, Razaghi R, Gilpatrick T, Molnar M, Gershman A, Sadowski N, et al. Simultaneous profiling of chromatin accessibility and methylation on human cell lines with nanopore sequencing. Nat Methods. 2020;17(12):1191-9.
[9] Shipony Z, Marinov GK, Swaffer MP, Sinnott-Armstrong NA, Skotheim JM, Kundaje A, et al. Long-range single-molecule mapping of chromatin accessibility in eukaryotes. Nat Methods. 2020;17(3):319-27.
[10] Stergachis AB, Debo BM, Haugen E, Churchman LS, Stamatoyannopoulos JA. Single-molecule regulatory architectures captured by chromatin fiber sequencing. Science. 2020;368(6498):1449-54 %@ 0036-8075.
[11] Chen, W., Weng, Z., Xie, Z. et al. Sequencing of methylase-accessible regions in integral circular extrachromosomal DNA reveals differences in chromatin structure. Epigenetics & Chromatin 14, 40 (2021).
信息及图片来源:Epigenetics & Chromatin官网和“华大科技BGITech”公众号。