Stripe基因组中的条纹
Stripe是三维基因组结构中一种特殊的染色质互作模式,最早由Rao等人在2014年的研究中发现和命名。与TAD(Topologically Associating Domain)和chromatin loop等其他三维基因组结构不同,stripe表现为Hi-C热图上一种独特的条带状结构,通常跨越较长的基因组距离(可达几兆碱基),并具有方向性。
image.pngStripe通常起始于启动子或增强子等调控元件,然后延伸至其他的基因组区域。这种互作模式提示,这些调控元件可能与其他基因组区域存在长程的调控关系。进一步的分析发现,stripe结构通常与转录活性相关,提示它们可能在基因表达调控中发挥重要作用。此外,stripe结构在不同细胞类型中表现出一定的特异性,suggesting它们可能与细胞特异性的基因表达调控有关。
比如最新的研究表明,stripe与染色质的未活化(poised)和活化状态都有关联。在神经元分化过程中,与胚胎干细胞相比,部分stripe会增强或减弱。这提示stripe可能在细胞分化和发育过程中发挥重要的调控作用。
Loop extrusion模型被认为是形成stripe结构的重要机制。在该模型中,环状的SMC(Structural Maintenance of Chromosomes)复合物结合在染色质上,从环内部拉出一个染色质环(loop)。这个过程持续进行,直到在loop边界处被其他蛋白(如CTCF)阻止。Stripe结构可以解释为SMC复合物从一侧拉出染色质,而另一侧保留在稳定的锚点上的结果。这一模型得到了体外单分子实验的支持,这些实验报道了酵母condensin、爪蟾SMC复合物和人类SMC复合物能够以单侧方式拉出染色质环的情况。
研究发现,stripe的形成与细胞的功能状态有关,并受到CTCF和cohesin蛋白在谱系特异性enhancer上结合的调控。Stripe可以将启动子与一长串enhancer连接起来,并在浆细胞瘤中解除免疫球蛋白重链基因座(IGH)易位的癌基因的调控。
目前已有少数方法可以在单个样本中定义stripe,但缺乏用于量化样本间stripe差异的算法和统计模型。有人开发了生物信息学工具包StripeDiff,用于系统地检测全基因组范围内的差异stripe。StripeDiff提出了一种新的统计模型,用于检验每个stripe在样本间差异的显著性。通过模拟数据和基准数据,StripeDiff展现出了稳健的性能。StripeDiff作者进一步将StripeDiff应用于12个不同的Hi-C数据集,揭示了差异stripe的生物学意义。
StripeDiff将染色质接触频率矩阵转化为stripe边缘信号矩阵,从而识别每个stripe的左右边缘。然后,它使用卡方检验来估计每个stripe在两个Hi-C样本间变化的显著性。通过模拟分析和真实Hi-C数据测试,证实了StripeDiff具有高度可靠的性能。进一步将StripeDiff应用于多个公共数据集的分析,结果表明StripeDiff定义的差异stripe与CTCF结合、增强子活性、RNA聚合酶II在染色质上的活性以及基因表达的变化相关。在八种细胞类型间进行的全景分析表明,细胞类型特异性的stripe形成比丢失更为频繁。
GuangyWang/stripeDiff (github.com)
基因组中的条纹|马克斯·普朗克公司 --- Stripes in the genome | Max-Planck-Gesellschaft (mpg.de)