NG|Hi-C解读体细胞突变

2020-12-07  本文已影响0人  概普生信

体细胞内的基因突变可能导致癌症的发展,因此,了解体细胞突变是如何在癌症基因组中积累以及体细胞突变的潜在因素对于开发新的治疗策略至关重要。今天小编为大家带来一篇于2020年10月5日发表于国际著名遗传学学术期刊《Nature Genetics》(IF2019>27)的一篇研究型论文《Somatic mutation distributions in cancer genomes vary with three-dimensional chromatin structure》

一、研究方法与思路

1.数据整合以及比对

在这项研究中,研究人员从三种不同的结肠癌细胞系(CaCo2,LoVo和DLD1)和一种黑色素瘤细胞系(A2058)生成了高分辨率的Hi-C数据。,每个实验用MboI限制性内切酶消化2500万个细胞。Hi-C文库在HiSeq 4000上测序。此外,研究人员利用了来自先前研究(GSE116694)的结肠癌(SW480)和食道腺癌(OE33)细胞系的Hi-C数据以及从ENCODE项目数据门户网站下载了正常结肠组织Hi-C数据的FASTQ。对于所有这些Hi-C数据集,研究人员使用BWA-MEM将读数与hg19参考基因组进行比对,并用Picard去除PCR重复片段。使用内部管道生成Hi-C交互矩阵,并使用迭代校正方法将矩阵归一化。

2.染色质区域注释

研究人员从前任文献中获得了GM12878细胞系的染色质结构域信息。为了基于表观遗传修饰聚类单个染色质域,研究人员试图利用来自各种人类细胞类型的综合表观基因组图谱。研究人员计算了每个染色质状态所覆盖的领域基因组空间的比率,除以域的长度,并生成了归一化矩阵,其中列是域,行是Roadmap Epigenome Consortium生成的15个ChromHMM染色质状态。作者将分层聚类应用于行以识别相似的染色质状态,将k-均值聚类于列以查明包含相似表观遗传修饰的组域。作者进行了k-均值聚类,其中k  = 2–8个簇,并选择k  = 5个簇,因为以前的染色质研究揭示了五个不同的表观遗传修饰的染色体结构域和k = 5对应于更好的视觉上可分辨的域。为了证明这些域注释能全面反映各种单元格类型中的域注释,作者使用ChromHMM状态数据进行了类似的分析。作者为每种细胞类型生成了一个矩阵,在该矩阵中,根据15个染色质状态模型计算了每个状态所覆盖的域基因组空间的比率。然后,作者根据使用所有单元格类型获得的域注释对域进行排序,并绘制了扩展数据无花果中表示的热图。

为了确定每个域注释的平均DNA甲基化和染色质开放水平,作者使用了TCGA 450 K阵列44和ATAC-seq 45数据集,计算了癌症类型中每个域的平均值。

3. TAD边界分析

研究人员使用了来自最近研究的常见TAD边界分析。简而言之,GM12878,HUVEC,IMR90,HMEC,NHEK和K562细胞系的Hi-C数据是从Gene Expression Omnibus(GEO; GSE63525)下载的。通过与两个接触基因座的Knight和Ruiz归一化分数相乘,对原始的染色体内25kb分辨率值进行归一化。为了识别每条细胞系中的TAD边界,作者使用了绝缘得分方法,(代码:https://github.com/dekkerlab/crane-nature-2015/)。

为了比较这些共同边界与癌细胞系TAD边界的重叠,作者下载了TAD边界区域,该区域也通过绝缘分数法针对以下癌细胞系进行了鉴定:ACHN,DLD1,SKMEL,A549,T47D,Caki2,H460, PRMI,PANC1,G401,SK-N-MC和SJCRH30。

作者通过在Hi-C矩阵上对角移动一个窗口并计算给定bin的交互作用之和(最多2 Mb侧翼区域)来计算绝缘分数,并计算观察到的bin的log 2到内的交互作用值的平均值给定的2 MB窗口。

4. 体细胞突变分析

作者使用了全基因组全癌症分析(PCAWG)突变特征工作组引用的3,000个肿瘤样品的体细胞突变调用。为了计算整个染色质域的突变负载变化,作者将基因组装在25 kb不重叠的窗口中,并计算每个窗口中的突变总数。通过汇总每种癌症类型或整个队列的突变负荷进行了此分析。为了确定单个样品中的突变分布,作者计算了跨TAD边界的每个样品的平均突变负荷,描绘了每个样品的有活性和无活性。然后,作者将值的数组标准化为每个样本在0到1之间缩放,并将结果绘制为热图。为了证明来自所有路线图表观基因组细胞类型的聚集域注释在突变负荷分析中的效用,作者根据每种癌症类型中的突变负荷对域进行了分类。接下来,作者基于此突变负载分析将域划分为四分之一。对于具有最小突变负荷的域(第四季度)和具有最高突变负荷的域(第一季度),作者计算了域注释。

5. 变异分布分析

为了比较由不同突变特征产生的突变负荷分布,作者计算了转录非活性域与转录活性域的突变负荷之比。首先,对于每个样本,我们将突变沿基因组分类在25 kb不重叠的窗口中。接下来计算了无效和有效域的突变总和,并根据有效和无效域的长度对该值进行了归一化。

为了计算由TAD边界周围的单个突变特征产生的突变的富集模式,作者首先计算每个样品中与常见TAD边界重叠的突变总数。接下来通过改组同一染色体上的边界区域并计算随机位置处的突变总数来生成预期的突变数。

为了估算域内转录和非转录区域的突变负荷,作者首先将RefSeq和UCSCknownGenes表中的基因体(包括内含子)注释合并在一起,以获得基因组中的一组转录区域。然后计算了在转录和非转录区域发生的突变数。

为了估计基因组相关性与癌症基因组中观察到的突变负荷变化之间的关系,作者将突变沿基因组装在25 kb非重叠窗口中。然后确定了最高(第一个分位数)和最低(第四个分位数)突变负载仓。为了计算域注释,我们对每种域类型进行了编码(异染色质:1;不活跃:2;受压迫:3;活跃:4;活跃-2:5),并为每个基因组区域分配了染色质域类型得分。

二、结果分析

1.体细胞突变的分布与3D基因组组织有关

分析结果显示,突变的体细胞的复制时间从早期到晚期逐渐变化,体细胞突变的频率的过渡在TAD边界处更为明显(如图1a所示),并且可以在各种癌症中观察到TAD边界周围的突变变化(如图1b所示)。与非活性域的转录区相比,活性域的非转录区获得了明显更低的突变负担(图1d)。这些结果表明观察到的突变负荷差异是全域效应,并且不限于基因组的转录活性。最后,如果突变负载变化与3D染色质组织有关,则观察到突变水平发生明显变化的基因座应与域边界重叠。为了检验这个假设,通过识别平滑的突变负荷信号的二阶导数的局部变化,将基因座称为突变分布有明显变化的位点(图1e)。实际上,这些基因座在TAD边界处观察到的Hi-C矩阵中表现出相似的相互作用绝缘(图1f)

图1

2.独特的染色质折叠模式和体细胞突变的分布

对于X染色体突变的研究显示,女性X染色体突变的分布总体上更加均匀,让人联想到Xi染色体的无TAD折叠结构(图2a,b)。相比之下,男性X染色体体细胞突变分布对应于Xa内观察到的结构域,类似于常染色体中的突变分布模式(图2a,b)。为了计算男性和女性沿X染色体的突变负荷变化,作者比较了活跃X染色体上500 kb活性区域(R1)和相邻的500 kb非活性区域(R2)之间的突变负荷差异,在这两个区域之间,男性样本中的突变负荷变化为74.3%,而女性样本中的突变负荷变化仅为30.7%(图2c)。总体而言,可以利用突变分布模式来了解局部染色质构象结构,特别是对于目前尚无Hi-C数据的癌症样品。这些结果证明了染色质折叠对于癌细胞中体细胞突变的积累的重要性,并强调了染色质构型的合理性,显着有助于癌症基因组中区域性体细胞突变的可变性。

图2

3.高阶染色质组织和DNA错配修复活性

对所有TAD边界进行染色质相互作用的分析表明,MSD癌细胞的TAD边界划分与健康结肠癌和MSS癌细胞的划分相当(图3a)。例如,尽管MSI和MSI癌细胞中的突变分布平坦,但是在MSS和MSI癌细胞系中,活跃域和非活跃域之间的边界周围的染色质相互作用相似(图3b)。通过计算胃MSI和MSS样品中标准化突变负荷之间的差异来估计MMR蛋白的效率(图4c)。我们观察到突变负荷之间的差异与TAD边界一致。有效域在MSI样品中获得了更多的突变,而无效域在MSS样品中获得了更多的突变(图3d)。可以在TAD边界处观察到突变负载的变化,该边界描述了活性域与非活性域之间的关系(图3e),假定的MMR效率在活性域中明显更高(图3)。

图3

4.突变的分布取决于活跃的突变过程,并且在肿瘤进化过程中可能发生转移。

最近的工作概述了2,658个癌症全基因组中的肿瘤进化,并报告说在40%的样品中,显性突变过程从克隆突变变为亚克隆突变。有趣的是,在肿瘤进化过程中降低活性的突变过程(克隆>亚克隆)通常会影响非活性域(图4a)。),这一发现证明了突变特征7与紫外线暴露或特征4与吸烟密切相关。我们还注意到一些病因不明的特征,例如,特征9、12和17在克隆突变中要比亚克隆突变高。相反,与诸如MSI相关的签名或APOBEC相关的签名之类的克隆突变相比,在活动域中产生更多突变的突变签名往往更有助于亚克隆。因此,我们假设偏向非活动域的突变特征与细胞外部致癌物之间可能存在联系. 这些结果表明,基于活跃的突变过程和染色质组织,癌症基因组中的突变分布可能会在肿瘤进化过程中发生变化。

图4

三、讨论

染色质构象似乎有助于人类癌症基因组中体细胞突变的可变积累。种系突变分布和不同人群之间的遗传变异,整个衰老过程中的体细胞突变积累或影响体细胞克隆增殖的突变(如不确定潜力的克隆性造血(CHIP))是否与空间基因组组织相关仍是有趣的悬而未决的问题。利用组织特异性染色质折叠数据集将揭示癌症类型之间突变负荷变化的谱系特异性特征。对人类癌症中3D基因组架构的更全面的了解将增进我们对突变过程和DNA修复活性的了解-最终绘制出更多信息。

今天的文献就介绍到这里,感兴趣的小伙伴记得去查看原文哦,NG的文章都是分析细致、实验思维巧妙、深度广度具备的好文献,值得细读!

文献连接:https://www.nature.com/articles/s41588-020-0708-0

上一篇下一篇

猜你喜欢

热点阅读