识别239个灵长类基因组中的保守序列元件
非编码DNA是理解人类基因调控和复杂疾病的核心,评估序列进化的保守性可以建立人类基因组中调控元件的功能相关性。阻碍对灵长类动物基因组元件识别的因素包括:非编码DNA相对于蛋白质编码DNA更快的进化速度、灵长类物种相对较短的分化时间、以及有限的全基因组序列。2023年11月29日,Nature在线刊发了名为《Identification of constrained sequence elements across 239 primate genomes》的文章,该文章由Illumina人工智能实验室主导完成。
本研究新测序了187种灵长类动物的基因组,并与已发表的52个高质量的灵长类参考基因组结合,构建了239个灵长类物种的全基因组比对,代表了近一半的现存灵长类物种。利用这一资源,研究人员确定了灵长类动物和其他哺乳动物中受选择性约束的人类调控元件。文章检测到111,318个DNase I超敏位点和267,410个转录因子结合位点,这些位点在灵长类动物中受到在其他胎盘哺乳动物中没有的特异性约束,且它们的顺式调控作用可以通过基因表达验证。这些调控元件丰富的人类基因变异,影响基因表达及复杂的性状和疾病。综上,本文的研究结果强调了最近的进化在区分灵长类动物(包括人类)与其他胎盘哺乳动物的调控元件中的重要作用。
~详细解读~
在灵长类动物中获得选择性约束(selective constraint)的功能元件是理解进化的主要候选,这些进化促成了我们自己物种的独特性。但由于灵长类动物之间的进化距离较短,确定灵长类动物特有的保守序列元件尤其具有挑战性。在如此短的时间尺度上,尚不清楚物种之间基因变异的缺失是由于功能限制,还是仅仅因为没有足够的时间来产生随机突变。因此,人类最终所在的系统发育分支所特有的选择性约束在很大程度上仍未被识别。最近一份基于数百个物种和个体的灵长类动物遗传多样性目录中报道了大量良性错义突变,但这些变异仅占人类基因组的1%。在此基础上,本研究构建了239种灵长类动物的全基因组多序列比对(MSA),以更好地表征人类基因组中非编码调控元件的约束。通过与其他哺乳动物的比较,确定了灵长类动物特有的一类重要的非编码调控元件,并通过整合功能基因组学和群体遗传学数据集描述了这些元件在人类健康中的作用。
239种灵长类动物全基因组比对
本文使用Megahit基于平均深度为35×的测序数据组装了187个灵长类物种的基因组,将得到的Contigs与已发表的52个高质量灵长类参考基因组结合,使用Cactus建立了239种灵长类动物的无参考全基因组MSA,代表了所有主要的灵长类谱系,包括86%的属和所有16个科。人类基因组的每个碱基平均被174种其他灵长类动物覆盖,且85%的常染色质区域被至少100种其他灵长类动物覆盖。最后,将灵长类动物的MSA与Zoonomia项目中剩余的哺乳动物目结合,得到了441种哺乳动物的MSA。这是迄今为止在全基因组MSA中对哺乳动物进行的最深的物种采样,包括本研究独有的204种灵长类动物,并且可以在广泛的哺乳动物和更近的灵长类动物中检测序列保守性。
灵长类保守的蛋白编码序列和顺式调控元件
使用phyloP和phastCons来评估基因组中的序列保守性。在蛋白编码基因中,密码子具有受约束的周期性模式,在核苷酸水平上可以区分外显子和周围的内含子序列。本研究在人类基因组中鉴定出在灵长类动物中保守的179,329个外显子,其中99%在非灵长类哺乳动物和脊椎动物中广泛保守,有2,178个在灵长类动物中特异性保守。大多数灵长类保守的外显子(72%)在小鼠基因组的同源区域被注释为蛋白质编码序列,表明它们不是新产生的编码序列,而是在灵长类动物的选择性约束中发生了进化。因此,从现有序列中进化出新的蛋白质编码基因或外显子是罕见的,而之前存在的外显子的功能重要性增加是相对更普遍、但仍然罕见的事件。本文在438种细胞类型的120万个DNase I超敏位点(DHS)元件的高分辨率图谱中计算了灵长类动物和哺乳动物的平均序列保守性。在1亿年前分化的物种中,42%的元件存在序列保守的证据,11%在灵长类动物中存在明显保守证据,但在哺乳动物或脊椎动物中缺乏保守证据。在这些DHS元件中,转录因子的占用阻止了DNA酶I的切割,从而在核苷酸分辨率上产生转录因子结合事件(TFBS)的足迹。在360万个TFBS足迹中,我们发现1,034,832个(30%)具有哺乳动物广泛保守的证据,而267,410个(8%)显示灵长类特异性保守。66%具有灵长类特异保守性的DHS元件具有在哺乳动物中保守的TFBS,这表明调节功能最初是在共同祖先中进化的。然而,19%的哺乳动物保守的DHS元件包含灵长类特异保守的TFBS,表明高度保守元件的功能可以进一步进化。对这些调控元件的生物学功能进行实验验证,结果表明灵长类动物特有的保守调控元件在人类中具有重要的顺式调控功能。
此外,本文还在人类基因组中发现了7460万个在所有239种灵长类动物中完全保守的位点。对这些位点编目了33,368个长度至少为20 bp的灵长类动物UCE,总计超过1 Mb的总DNA序列,包含7,261个外显子和22,582个DHS元件。在最近报道的4,552个哺乳动物UCE中,超过一半(57%)的UCE与灵长类动物的UCE重叠,82%的UCE在允许每个对齐列中存在1%的缺失物种时与灵长类动物重叠。蛋白质编码序列与灵长类UCE重叠的基因更有可能参与神经系统的发育。
约束CRE的复杂性状变异
GWAS确定的与复杂人类疾病和基因表达变化相关的遗传变异大多与非编码CRE相关。本研究鉴定了UK Biobank的包含96种人类临床表型和复杂性状的GWAS变异的DHS元件和足迹,并表征了其是否仅在灵长类动物(65 Ma)、胎盘哺乳动物(100 Ma)、脊椎动物(160-400 Ma)中是否保守。临床表型和复杂性状的精细变异在所有类群的远端开放染色质元件和足迹中都得到了富集。而GTEx研究中的eQTL在近期受约束的元件中有类似的富集。通过选择性约束对人类基因进行分层发现,影响高度受约束基因表达的变异往往在更深度受约束的DHS元件和足迹中富集,而影响更少受约束的基因表达的变异往往存在于更近期受约束的元件中。对来自UKBB的变异进行划分,发现编码外显子中变异的受约束程度高于非编码开放染色质。CRE中12%的精细比对变异仅在灵长类动物中受约束,与人类复杂性状和临床表型下的93种可能的因果调节变异相对应。
本研究通过将239种灵长类动物(包括187种新组装的灵长类动物)的基因组置于其他哺乳动物和脊椎动物基因组的背景下,确定了数十万个受约束的非编码序列元件,并编目了它们在灵长类动物、胎盘哺乳动物和更古老的脊椎动物中的序列约束起源。总的来说,这些CRE是独特的进化记录,为观察导致人类物种近期变异的机制提供了视角。
~END~