2021 Nature Reviews Genetics(IF

2022-09-27  本文已影响0人  iBioinformatics

原创 颤抖吧小虫子 [颤抖吧小虫子](javascript:void(0);) 2022-02-23 14:42

收录于合集

等位基因特异性表达2个

遗传变异2个

种间杂交2个

基因组25个

Part1Nature Reviews Genetics | 产生基因表达变异的分子和进化过程

    大家好!今天介绍的一篇综述是2020年12月2日由美国密歇根大学生态与进化生物学系**Patricia J. Wittkopp**教授发表在**Nature Reviews Genetics**上的的题为“**Molecular and evolutionary processes generating variation in gene expression**”一文。本文主要介绍了基因表达(尤其是转录水平)的顺式和反式调控作用(*cis*- and *trans*-regulatory effects)的高通量方法揭示了不同的分子机制是如何产生调控性变异的。

Dr. Patricia Wittkopp

Wittkopp博士对果蝇进化和发育的研究始于她在密歇根大学跟随Greg Gibson博士进行的本科研究(1997年获得学士学位),并在威斯康辛大学跟随Sean Carroll博士进行的博士工作期间继续进行(2002年获得博士学位)。2002-2005年,Wittkopp博士在Damon Runyon癌症研究中心进行博士后研究,在康奈尔大学与Andy Clark博士一起研究基因表达的进化问题。2005年8月,Wittkopp实验室在密歇根大学正式成立。

[图片上传失败...(image-f9e9e4-1663987238871)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px; visibility: visible;">Patricia (Trisha) Wittkopp</figcaption>

Wittkopp实验室研究方向:

医学研究人员和进化生物学家面临的最紧迫的挑战之一是确定DNA序列的哪些变化是特定表型的基础,以及它们如何发挥其作用。这对于非编码区的变化来说尤其如此,许多非编码区会影响基因表达。Wittkopp实验室的研究调查了表型差异的遗传和分子机制,并研究了它们产生的进化过程。这包括细胞类型之间、个体之间和物种之间的差异。主要侧重于基因表达的转录调控,因为它在将基因型转化为表型方面起着关键作用。

目前,正在该实验室正使用多个果蝇物种以及面包酵母来解决四个互补性的问题。

  1. 物种内和物种间表型差异的遗传和分子机制是什么,它们是如何演变的?
  2. 顺式调控序列如何决定基因表达,顺式调控区域的结构如何随时间变化?
  3. 顺式和反式调控变化对全基因组表达差异的相对贡献是什么,自然选择如何塑造它们的进化?
  4. 新突变的功能特性是什么,它们如何影响哪些突变在一个物种内分离并在物种间固定?

这些课题中的前两个是单基因的研究,而后两个是在基因组范围内对基因调控和表型多样性的更广泛的研究。

[图片上传中...(image-313b1b-1663987238871-8)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">Molecular and evolutionary processes generating variation in gene expression</figcaption>

Abstract

    基因表达的遗传变异在物种内和物种间都很常见。这种变异来自于改变分子基因调控网络形式或功能的突变,然后被自然选择所过滤。引入突变并描述其对基因表达(尤其是转录水平)的顺式和反式调控作用的高通量方法揭示了不同的分子机制是如何产生调控变异的,而将这些突变作用与野生状态下的变异进行比较的研究则将中性和非中性进化过程的作用分开。这种分子生物学和进化生物学的结合使我们能够理解我们今天看到的基因表达的变异是如何产生的,并预测它在未来可能如何演变。

分子进化的中性理论认为,大多数进化变化发生在分子水平上,物种内部和之间的大部分变化是由于选择性中性的突变等位基因的随机遗传漂变造成的。该理论只适用于分子水平的进化,并与查尔斯-达尔文所假设的由自然选择形成的表型进化相一致。中性理论允许大多数突变是有害的,但认为由于这些突变被自然选择迅速清除,它们对分子水平上的物种内部和之间的变异没有重大贡献。中性突变是一种不影响生物体生存和繁殖能力的突变。中性理论假定,大多数不具有害性的突变是中性的,而不是有益的。由于在一个物种的每一代中只有一部分配子被抽样,中性理论认为一个突变的等位基因可以在一个种群中出现,并在偶然的情况下得到固定,而不是通过选择优势。

遗传漂变(等位基因漂移): 是指由于生物体的随机抽样而导致种群中现有基因变异(等位基因)频率的变化。后代中的等位基因是父母本的抽样,机会在决定一个特定个体是否生存和繁殖方面有一定作用。一个种群的等位基因频率是一个基因的拷贝中共享一个特定形式的部分。

Introduction

    基因表达的调控是将基因型转化为表型的一个关键步骤。这种调控的变化在物种内部和物种之间都很常见,并有助于性状的多样性。例如,基因表达调控的变化已被证明有助于植物和动物的不同色素累积,小鼠的多态体型,驯化酵母的孢子率和许多其他形态、生理和行为特征,甚至包括人类的疾病状态。因此,了解调控变异是如何产生和演变的,对于理解生物学的许多方面至关重要。

    影响调控网络活性的遗传变异是基因表达变异的基础。这些网络包括蛋白质、RNA和DNA序列之间的相互作用。转录因子和DNA序列,如增强子和启动子,最常被认为是定义基因调控网络的基础,但蛋白质和蛋白质的相互作用、信号途径甚至代谢状态也会对其活性产生影响。这些元素中任何一个的突变都会引起基因表达的变化。这类突变可分为顺式或反式作用:顺式作用突变改变了位于同一染色体上的基因的表达,并倾向于靠近受影响的基因,而反式调控突变对基因表达的影响是由可扩散的分子(如RNA和蛋白质)介导的,可以位于基因组的任何位置。这两种类型的突变都与基因表达的变异有关,但其分子机制的差异表明,它们在进化过程中对调控变异的贡献可能是不相等的。

    现在已经对各种植物、动物和微生物物种进行了基因组研究,描述了基因表达的变异以及顺式和反式变异的相对贡献。与所有性状一样,这种变异反映了通过突变引入新的遗传变异,通过自然选择对这些变异进行过滤,以及通过遗传漂移使某些变异偶然存活。然而,每一个过程在多大程度上形成了我们在野生种群中看到的变异,仍然难以辨别。例如,如果一个基因的表达比另一个基因的表达有更多的变化,这可能是因为第一个基因的表达受到的选择限制较少,或者是因为有更多的新突变改变了它的表达(以及其他可能性)。迄今为止,选择在塑造调控变异方面的作用的研究在很大程度上依赖于对新突变的影响的假设,因为很少有经验数据。然而,随着DNA合成、基因组编辑和高通量表达分析的最新进展,这种知识界限开始缩小,可以大规模地产生和鉴定调控性变异。

    本文作者主要介绍对产生基因表达变异的分子和进化过程的理解。把重点放在RNA表达的变异上,因为存在大多数可用数据;量化蛋白质表达水平的变异在技术上仍有很大的挑战性。本文首先简要回顾了描述顺式和反式调控变异对基因表达变异的相对贡献的研究。然后,讨论了这种调控变异的分子来源,包括描述这些序列突变的影响以及它们对物种内和物种间表达差异的贡献的研究。最后,展示了对比新的突变和自然种群中分离的遗传变异的影响,揭示了负责基因表达进化的进化过程。

cis- and trans-regulatory variation

    区分顺式和反式调控变异揭示了突变和它们对基因表达的影响之间的关系。两种策略主要用于在基因组范围内区分顺式和反式调控变异的影响。第一种方法是在F1杂交代中使用等位基因特异性表达(ASE)来比较共同的反式调控背景中顺式调控等位基因的活性与F1杂交代的父母本的表达(box 1)。第二种策略是利用遗传变异和基因表达之间的统计关系来确定影响基因表达的数量性状位点(eQTLs)(box 2)。这两种方法提供了顺式和反式调控变异的互补信息,第一种方法捕获了所有顺式和反式调控变异的净效应,第二种方法提供了关于单个基因座效应的信息。

    使用ASE来估计顺式和反式调控变异对基因表达变异的相对贡献的研究已经在各种分类群中进行,包括植物、酵母、小鼠、鸟类、黄蜂和果蝇。这些研究包括分析来自近亲繁殖群体的个体之间的基因表达,同一物种的许多独立的品系之间的基因表达以及物种之间的基因表达。这些比较中的每一项都抓住了进化过程中不同阶段的基因表达的演变。在物种内部,反式调控变异似乎比顺式调控变异对基因表达的变化贡献更大。这种模式被认为是由于反式调控变异的突变目标大小较大:也就是说,在基因组中,突变可以影响一个基因的反式表达的地方比顺式表达的地方多。然而,顺式调控变异对物种间基因表达差异的贡献往往相似或更大。直接比较顺式和反式调控变异对表达变异的相对贡献的研究表明,顺式调控变异的相对贡献随着分化时间的增加而增加(图1a,b)。顺式调控贡献的增加可以解释为顺式调控变异比反式调控变异更有利和/或更无害,这可能是由于它们的平均基因多效性不同造成的,这在下面的章节中讨论。

Box 1 | 等位基因特异性表达与调控变异的关系

顺式调控变异只改变位于同一染色体上的转录等位基因的表达。当同一基因的两个等位基因的表达在同一个反式调控环境中进行比较时--如F1杂交代中的两个等位基因,两个等位基因产生的RNA转录本的丰度不同,可以捕捉到它们的相对顺式调控活性。将F1杂交代中的这种相对顺式调控活性与亲本基因型(P1和P2)中相同等位基因的相对表达进行比较,也可以推断出反式调控变异的影响。因此,当F1杂交代中两个等位基因的表达量有明显差异时,就可以推断出顺式效应,而当亲本(P1)和杂交代(H1)品系中的等位基因表达量之比不同时(P1H1),就可以推断出反式效应(见图)。RNA测序可以对全基因组的等位基因特异性表达进行量化,顺式和反式调控变异在每个基因基础上进行划分。只要有等位基因的变异,并且可以产生可存活的F1杂交代,这种策略一般就可以用来描述调控变异的特征。然而,这种方法忽视了导致了观察到的调控效应的顺式和反式调控变异的特性和基因组位置。此外,顺式调控变异的测试通常比反式调控变异的测试更有力量,因为前者只依赖于F1杂交代中等位基因特异性表达的测量,而后者则将杂交代中的表达比与亲本基因型之间的表达比进行比较。因此,与顺式调控变异相比,在测试反式调控变异的影响时,可在不同的生物重复中变化的参数数量较多。在测试补偿性进化的证据时,还必须注意确保对顺式和反式调控变异的影响的独立估计。

[图片上传中...(image-72fc90-1663987238871-3)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">Disentangling regulatory variation with allele-specific expression</figcaption>

    在类似的各种分类群中,已经进行了识别有助于基因表达变异的eQTLs的研究。这类研究的数据提供了对基因组内调控变异的数量、位置和影响的深入了解,并表明基因表达的变异通常是多基因的,多种变异对大多数基因的表达变异有贡献。例如,在对面包酵母的研究中,用90%的power来识别解释基因表达2.5%或更多变异的eQTLs,发现影响单个基因表达的eQTLs中位数为6个,最多为21个eQTLs(图1c)。eQTLs通常跨越相对较大的基因组区域,并可能包含多个遗传变异,使得识别因果变异变得困难。增加重组断点数量的方法可用于获得更高的分辨率。例如,结合一代以上的重组来打破连接点的eQTL图谱实验,然后对具有极端表型的个体进行混合分组分析,发现了更多的eQTL,在酿酒酵母中,有100多个eQTL影响一个基因的表达(TDH3)。

Box 2 | 利用遗传关联定位顺式和反式调控变异

影响基因表达的特定遗传变化可以通过遗传图谱在基因组内进行定位,这依赖于基因表达表型和通过重组在基因组间洗牌的变异之间的统计学联系。这种重组可以来自于两个(或多个)亲代品系(如p1和p2,见图)以受控的方式进行杂交(定量性状位点(QTL)图谱),产生杂合的F1后代,然后进一步杂交产生分离的组。在这两种情况下,对分离样本或人群样本中的个体进行基因分型和表型分析,并计算出遗传变异与数量性状(在此情况下为基因表达)之间的统计关联。具有统计学意义的变异称为表达数量性状位点(eQTLs)。或者,可以利用一个种群中现有的遗传多样性来进行全基因组关联分析分析(GWAS)。在这两种情况下,分离群体或种群样本中的个体都是具有基因型和表型型的,并计算遗传变异和数量性状(在这种情况下为基因表达)之间的统计关联。具有统计上显著影响的变异称为表达数量性状基因座(eQTLs)。

eQTls被指定为顺式或反式作用,其依据是与它们影响表达的基因的物理接近程度:与受影响基因相近的相关变异通常被认为是顺式eQTls,而在特定顺式窗口外的相关变异被认为是反式eQTls。虽然这个假设经常成立,但近端变异有可能通过可扩散的产物(如RNA或蛋白质)调节受影响的基因,使其成为反式作用变异,而顺式作用变异则可以位于远端增强子中,远离其调节的基因。由于顺式eQTls的测试通常只限于基因组中靠近靶基因的一个小区域的变异,而反式eQTls的测试包括这个假定的顺式作用区域以外的所有变异,因此反式eQTls的测试比顺式eQTls的测试具有更多的多重检验负担,因此统计效力较低。尽管如此,eQTl图谱是目前在基因组内定位调控变异的最佳方法。

[图片上传失败...(image-da93a2-1663987238871)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">Using genetic associations to localize cis- and trans-regulatory variants</figcaption>

[图片上传中...(image-113541-1663987238871-7)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">Fig. 1 | cis- and trans-regulatory contributions to expression differences between and within species.</figcaption>

a | 四种酵母菌的系统发育树,具有一定的分化时间范围;分支长度反映了相对分化时间。

b | 顺式调控差异对a部分所示物种间表达差异的贡献。注意顺式调控差异对表达差异的贡献随着分化时间的增加而增加。缺口表示中位数的95%置信区间,胡须表示外部四分位数。

c | 数据来自于数量性状基因座基因表达酿酒酵母的研究,数据显示了eQTLs的数量是如何影响基因表达的。

d | 不同效应大小的局部(推测为顺式)和远程(推测为反式)QTL的相对频率(密度)(即解释基因表达的不同表型变异量)。这些数据表明,cis-eQTLs 比 trans-eQTLs对基因表达的影响更大。

Mechanisms of cis-regulatory variation

    顺式调控变异产生于影响控制一个基因特定等位基因表达的序列的遗传变化。这些变化可以影响基因的核心启动子和增强子,它们都含有转录因子的结合位点;影响DNA对转录因子的可及性的染色质结构;以及影响RNA转录本序列的结构、稳定性或翻译。下面,将讨论作为顺式调控变异来源的这些组成部分中的每一个。

Box 3 | 顺式调控突变效应的研究

为了确定顺式调控序列的突变效应的分布,需要产生许多顺式调控元件的等位基因(每个理想情况下携带一个突变),并检测它们在细胞中驱动基因表达的能力。突变的等位基因可以通过在微阵列上的可编程DNA合成、具有退化位置的DNA片段的合成、易错的PCR或定点诱变来产生。将这些片段克隆到报告基因或DNA条形码的上游,并将这些等位基因引入细胞(在细胞培养中或通过注射到生物体中)后,报告基因或条形码的表达就会被测量。如果报告基因是荧光的,可以用流式细胞仪或显微镜测量表达。如果使用的是条形码,则根据RNA测序实验中观察到的每个条形码的拷贝数来量化表达(见图)。将突变等位基因的高通量生产与使用条形码的高通量表达读出相结合的实验通常被称为大规模平行报告测定。然而,由于等位基因没有整合到基因组中,这种方法可能无法准确预测顺式调控突变在其原始基因组背景下的影响。使用报告基因的研究更有可能将顺式调控等位基因整合到基因组中,往往有更大的能力来检测表达的微小变化,但通常调查的顺式调控元件和突变较少。可以在许多单细胞中进行检测的报告基因也更容易检查突变对表达噪声的影响。这项工作的下一个前沿是扩大报告基因实验的规模,提高单细胞条形码策略的灵敏度,并增加多细胞生物体内表达的空间信息。

[图片上传失败...(image-96ef76-1663987238871)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">Surveying effects of cis-regulatory mutations</figcaption>

Core promoters.

    在最近的部位,一个基因的表达是由其核心启动子序列控制的,它含有转录所需的一般转录因子的结合位点(图2)。核心启动子序列通常位于靠近转录起始点的地方,例如,在人类的300bp内。其中一些核心启动子含有定位一致的离散序列,如TATA box或下游核心启动子元件,而另一些则富含序列基序,如分布在更大区域的Cpg岛。

    高通量突变研究检测了数以千计的单核苷酸变化对核心启动子活性的影响,显示了这些序列的变化如何有助于物种内和物种间的调控变化。最早的此类研究之一使用massively parallel reporter assay(box 3)来评估来自噬菌体和人类的核心启动子中顺式调控突变的影响,并使用体外转录试验确定活性。影响最大的突变位于TATA盒和转录起始位点重叠的启动子区域内。在这些基序之外,大多数突变没有统计学意义上的影响。然而,最近一项对人类核心启动子的研究,在整合到人类K562红血病细胞系的基因组后,对各种启动子等位基因的活性进行了检测,发现这些关键区域以外的序列也可能存在影响启动子活性的遗传变异。对小鼠核心启动子的突变的研究也描述了启动子内有重大影响的突变的更广泛分布。

    尽管核心启动子有可能导致表达差异,但其序列、组蛋白标记和功能的关键组成在物种间通常是高度保守的。这种保守性可能是由于表达一个基因需要一个有功能的启动子,以及对与这些序列结合的蛋白质有很强的功能限制,因为它们调节的是许多不同的基因。事实上,启动子内作为一般转录因子结合位点的序列,如TATA盒,是哺乳动物核心启动子中保守性最高的部分。然而,对人类和猕猴的核心启动子序列的比较表明,少数基因的核心启动子可能因正向选择而发生分化,其他工作表明,核心启动子的增减有助于小鼠和人类之间的表达分化。此外,即使核心启动子本身的变异不是表达分化的来源,核心启动子的结构仍然可以影响表达分化。例如,TATA盒的存在,核心启动子中的核糖体定位和核心启动子序列中的串联重复序列都被证明与酵母的表达差异有关。

Enhancers.

    与核心启动子相比,增强子通常位于离转录起始位点较远的上游(5′)、下游(3′)或内含子区域(图2),似乎更经常成为影响基因表达的顺式调控变异的来源。由于增强子以比核心启动子更具有时间特异性、组织特异性或环境特异性的方式调控基因的表达,预计它们因基因多效性而受到的功能限制较少,因此更具有可进化性。事实上,通常与增强子相关的组蛋白标记比与核心启动子相关的组蛋白标记在哺乳动物物种之间的差异更大。尽管单细胞生物如酿酒酵母缺乏增强子,但它们有上游的激活和抑制序列,通常以类似的上下文依赖方式发挥作用。

Transcription factor binding sites.

    所有这些顺式调控DNA序列的主要功能单元是转录因子的结合位点,可以激活或抑制转录。这些序列很短,是退化的,能够相对快速地进化,甚至从随机序列中进化。改变转录因子结合位点(TFBSs)的特性、亲和力、方向、数量和/或间距的突变可以改变顺式调控活性。对增强子和其他类似顺式调控元件的大规模诱变研究表明,尽管这些序列中的许多突变可以改变基因表达,但TFBS的突变往往影响最大。尽管TFBSs通常是增强子内最高度保守的序列之一,但它们也可能藏有导致物种内和物种间基因表达变化的遗传变化。然而,在大多数情况下,如果功能变化已被映射到增强子或类似的顺式调控序列,负责改变其功能的具体遗传变化尚未被确定。

Chromatin accessibility.

    为了使TFBS能够调节一个基因的表达,它所结合的转录因子必须能够进入DNA序列。在真核生物中,DNA被包裹在称为核小体的组蛋白复合物中,从而被包装成染色质,这可能会干扰这种访问(图2)。因此,核小体和转录因子与顺式调控DNA序列的相互作用可以影响基因表达,使影响染色质结构的遗传差异成为顺式调控变化的另一个潜在来源。事实上,启动子上核小体定位的不同模式已被证明与表达的可塑性、物种水平的表达差异和新突变对基因表达的影响相关,表明启动子上核小体的存在和稳定性模式在塑造进化轨迹方面可能发挥重要作用。

染色质结构的变化有助于基因表达的进化的直接证据仍然很少,但已开始积累。例如,在果蝇中,结合有关染色质可及性和TFBS的信息,比单独考虑TFBS更能解释黑腹果蝇和处女蝇之间的表达差异。在酵母中,染色质结构的差异也被证明与基因表达的差异相关,但物种间核小体定位的大多数差异都在调控区域之外,与表达差异不相关。然而,至少在某些情况下,染色质结构的变化似乎已经被核小体位置变化所暴露的TFBS的补偿性变化所抵消。

Post-transcriptional sources of cis-regulatory variation.

    虽然核心启动子、增强子和染色质可及性是最常讨论的顺式调控变异的来源,但它们并不是基因表达中等位基因特异性变异产生的唯一途径。例如,剪切位点的变异可以对mRNA的剪切产生等位基因特异性的影响;聚腺苷酸化信号的变异可以改变mRNA的稳定性、翻译和在细胞内的位置;3′非翻译区的变异可以影响mRNA的降解率以及microRNA的调节。mRNA内的序列变化也可以影响核小体的占用和翻译效率。未来的工作需要关注这些转录后机制,以更全面地评估它们对调控进化的相对贡献。

[图片上传中...(image-afb486-1663987238871-6)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">Fig. 2 | Sources of cis-regulatory variation in eukaryotes.</figcaption>

a | 染色体显示,作为顺式调控变异(box)来源的突变发生在相关基因(橙色椭圆)附近。

b | 影响核心启动子(包括用于组装激活RNA聚合酶的转录机器的TATA box等基序)、增强子(其功能单元是转录因子结合位点(TFBS))、染色质可及性(由核小体的位置和稳定性改变)和转录后调控(如3′非翻译区的剪接位点或microRNA(miRNA)靶点)的突变(用闪电表示)可以对基因表达产生顺式调控效应。所示的核苷酸序列说明了突变(突出红色)导致野生型(WT)和突变型(Mut)等位基因(白色背景)或从DNA转录的RNA(绿色背景)的差异。

Mechanisms of trans-regulatory variation

    顺式调控变异往往位于受影响的基因附近,而影响基因表达的反式调控变异几乎可以位于基因组的任何地方。这些潜在的反式调控变异的位置包括编码和非编码序列,它们影响基因的表达或活性,直接(通过与顺式作用序列结合)或间接(通过影响直接调控因子的活性)调节靶基因的表达(图3)。反式调控变异的这种大的潜在目标规模使其很难通过对候选区域进行有针对性的分析来寻找。相反,需要采用全基因组的诱变和mapping策略来引入和鉴定反式调控变异,通常需要进行后续实验将因果变异的影响与关联位点分开。

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">:Fig. 3 | Sources of trans-regulatory variation.</figcaption>

a | 染色体示意图显示,作为反式调控变异来源的突变(方框)可以发生在整个基因组的任何地方,在编码或非编码序列中,并影响可扩散的分子,然后影响有关基因的表达(橙色椭圆)。例如,在每个彩色方框内含有突变的基因可以编码b部分所示的对基因表达具有反式调控作用的蛋白质类型。

b | 反式调控突变(用闪电表示)可能发生在转录因子、细胞传感器、转运体、信号受体和配体以及其他分子的非编码或编码序列中,这些分子通过对许多相互关联的细胞网络的影响来影响许多基因的转录。

Coding and non-coding sequences.

    虽然反式调控变异的作用是由可扩散的分子(如RNA或蛋白质)介导的,但对人类中反式调控变异分离的研究表明,大多数反式调控的变异并不位于编码这些分子的序列中。相反,在大规模的全基因组关联研究中,大多数反式调控变异都是在控制基因表达的非编码、假定的顺式调控序列中发现的。通过改变它们所影响的顺式基因的表达,这种变异可以影响其他基因的反式表达。例如,位于编码溶菌酶(一种分解细菌细胞壁的酶)的基因附近的顺式作用的eQTL已被证明也作为反式作用的eQTL来影响单核细胞中其他基因的表达。同样,在转录因子KLF14附近有一个顺式作用的eQTL,它调节脂肪组织中基因的表达,解释了对其他基因表达的反式作用。

    然而,对酿酒酵母的研究表明,这个物种可能在编码和非编码序列中有不同的反式调控分布。与人类一样,具有影响许多基因表达的反式调控eQTL的热点基因更有可能具有局部的、被认为是顺式作用的eQTL,而不是偶然的,但迄今为止,在酿酒酵母中mapping和验证的功能性反式调控主要(尽管不是全部)是在编码区。酿酒酵母在编码序列中的反式调控变异比例可能比人类高,因为它们的基因组中非编码部分少得多(酿酒酵母27%,而人类97%);但是,编码区变异的比例较高也可能是由于经常使用实验室适应的菌株,该菌株携带许多野生种群中没有的变异。要确定编码和非编码变体对酵母(和其他物种)反式调控变异的真正相对贡献,需要对来自自然种群的变异进行更广泛的mapping和功能测试。

    通常反式调控变异更经常地映射到编码序列,这可能是因为非编码序列的突变倾向于较少的基因多效性。例如,影响组织特异性增强子活性的非编码突变预计会比改变同一基因在任何地方表达的蛋白质序列的编码突变对性状的影响要小。事实上,人类非编码序列中的大多数反式eQTLs似乎更有可能影响增强子而不是核心启动子,而且往往具有组织特异性影响。由于多变性较强的突变通常比多变性较弱的突变更有害,因此编码突变可能比非编码突变受到更强烈的选择,从而降低其在自然群体中的频率。然而,这一范式受到了数据的挑战,数据显示顺式调控序列比一般认为的更多变,蛋白质序列更模块化。事实上,最近的一项研究表明,酵母MATα2转录因子蛋白的模块化是促进其分化的,然后它所调节的基因的顺式调控、非编码序列也随之发生变化。

Transcription factors.

    转录因子通常被认为是最有可能的反式调控变异来源,特别是对于热点eQTLs而言,因为大多数转录因子调节许多靶基因的表达。事实上,转录因子似乎经常对人类和酿酒酵母的热点eQTLs起作用。然而,转录因子影响多个下游靶基因表达的能力也导致了对其变异的功能限制。事实上,它们的蛋白质编码序列、DNA结合特异性和一般的生理作用往往在漫长的进化时间尺度上是保守的。尽管有这些普遍的保守趋势,但转录因子在功能上还是会有差异,如已报道的控制酵母交配类型的转录因子、植物的花发育和细胞分裂以及昆虫的身体形态等的蛋白质序列变化,包括那些影响其DNA结合特异性的变化。

Sources of trans-regulatory variation other than transcription factors.

    影响不编码转录因子的基因的变异也是反式调控变异的重要来源。例如,染色质调节器可以对基因表达产生广泛的影响,在酿酒酵母的eQTL研究表明,编码这些类型的蛋白质的基因隐藏着影响许多基因表达的反式作用eQTL。在酿酒酵母中的功能研究也证明了调节转录因子活性的辅助因子变异以及影响新陈代谢的基因,如葡萄糖受体RGT2和感知细胞外氨基酸浓度的膜蛋白SSY1的反式调控作用。在人类中,反式eQTLs也被证明可以映射到不编码转录因子的基因上,如SLCO1A6基因,其中的一个遗传变异被证明可以通过改变胆汁酸在胰岛中的转运而改变许多基因的表达。这些研究和其他研究表明,反式调控变异的不同来源是转录、结构、信号和代谢网络相互联系的结果,并强调了以我们目前对系统生物学的理解预测和识别反式调控变异的挑战。它们也符合所提出的 "全基因 "遗传性模型,即每个基因的表达都有可能影响每个性状。最终,需要对候选的反式调控变异进行更多的功能实验,以充分了解反式调控变异的来源。

Surveying the effects of trans- regulatory mutations.

    靶向诱变策略,如用于阐明顺式调控突变效应的策略,不能用于无偏见地调查反式调控突变,因为反式调控突变可以位于基因组的任何地方。因此,反式调控突变最好通过在整个基因组随机引入突变并测量其对基因表达的影响来调查。有两种一般的策略被用来分离反式调控突变的影响特征所需的突变:突变积累和随机诱变(box 4)。这两种方法都没有区分顺式或反式作用的突变,但绝大多数随机引入的影响靶基因表达的突变预计是反式作用的,这表明这些研究中捕获的顺式调控突变是可以忽略的。事实上,对酿酒酵母的TDH3基因的研究估计,随机突变影响该基因反式表达的可能性至少是顺式的265倍。

Box 4 | 反式调控突变效应的研究

由于反式作用的突变几乎可以存在于基因组的任何地方,所以反式调控突变的影响可以通过研究随机引入的全基因组的突变的影响得到最有效的调查。这种突变通常使用两种策略之一来收集:突变积累或随机诱变。突变积累研究收集了在几乎没有自然选择的情况下多代出现的自发突变。多个独立品系从一个起始种群(如果不是同源,也是高度近交)开始,以每代一个无性或两个有性个体的瓶颈进行繁殖(见图)。这些极端的瓶颈允许选择只去除致命或不育的突变。这种策略可以捕捉到全部的自发突变,但是鉴于每一个碱基的突变率通常在每一代108到1010之间,因此需要许多代的突变积累来捕捉哪怕是少量的突变。突变积累实验往往只能提供影响任何特定基因表达的反式调控突变的稀疏样本。相比之下,随机诱变可以在一代中为每个细胞引入几十到几百个新突变。这些突变可以通过化学诱变、DNA修复缺陷菌株或转座子的激活来引入。然而,这些方法引入的突变只反映了自发产生的突变类型中的一个子集。例如,可能是最广泛使用的化学诱变剂--甲基磺酸乙酯(EMS),几乎只引入了G-A和C-T转换。因此,随机诱变方法是研究自发突变影响的重要补充,而不是替代。

[图片上传中...(image-3376de-1663987238871-0)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">Box 4 | Surveying effects of trans-regulatory mutations</figcaption>

    突变积累研究通常通过估计突变方差(Vm)来总结新突变对基因表达的影响,它描述了每一代中新突变引起的表达方差的增加。这个参数已经在两个果蝇物种、酿酒酵母和线虫的全基因组范围内被估计。这些数据表明,新的突变往往对基因表达有广泛的影响。例如,在黑腹果蝇的200代突变积累实验中,对12个独立品系中的每个品系的约360个突变进行了检查,发现约39%的基因在突变积累系中表现出明显的表达差异。在一个持续了4000代的突变积累研究中,也发现酿酒酵母中大约三分之一的基因在4个独立品系中具有明显的表达差异。一般来说,突变积累研究表明,许多突变会影响多个基因的表达,这与它们往往具有反式调控作用相一致。

    专门研究影响单个基因表达的一组突变的诱变研究是对突变积累研究的重要补充,因为它们对影响基因表达的反式调控突变进行了更深入的采样;突变积累线通常只恢复影响任何特定基因表达的少数突变。到目前为止,这种诱变方法已被最广泛地用于研究改变由酿酒酵母TDH3基因启动子驱动的表达的反式调控突变的突变效应的分布。例如,这些研究表明,即使TDH3是基因组中表达量最高的基因之一,增加其表达量的突变至少和减少其表达量的突变一样常见。用同样的方法来描述数以千计的突变对其他9个酿酒酵母基因的启动子驱动的表达的影响,显示了突变效应的基因特异性分布在偏斜、峰度和离散方面的不同,这些都不是Vm所能反映的。

    这些对影响特定基因表达的主要反式作用突变的更集中的研究也允许直接比较影响同一基因表达的顺式和反式调控突变的效果。例如,一项研究比较了酿酒酵母TDH3启动子中235个顺式调控突变的影响和分布在整个基因组中的约47,000个突变的影响,结果显示顺式调控突变对TDH3启动子驱动的表达的平均影响往往比反式调控突变大。这些顺式调控突变也比反式调控突变更有可能降低该基因的表达,并且在二倍体细胞中具有显性效应。据我们所知,TDH3是目前唯一存在顺式和反式调控突变信息的基因;然而,如果其他基因显示出类似的趋势,顺式和反式调控突变之间的这些差异,再加上上述预期的多态性差异,可能解释顺式和反式调控变异对基因表达进化的不平等贡献。

Mechanisms of evolutionary change

    理解新的突变如何产生基因表达的变异对于理解基因表达如何进化至关重要,因为这使我们能够预测在不同数量的进化时间后,仅由于中性过程我们应该看到多少基因表达的变异。也就是说,当一个基因的表达是中性进化时,突变会引入新的变异来影响其表达,而遗传漂移会偶然地固定和消除这些变异,有效地从突变效应的分布中随机取样。然而,当自然选择作用于一个基因的表达时,根据其效果,一些调控变异比其他变异更有可能被固定或消除,导致突变效应的分布与在一个物种内分离的多态性或物种间不同的分歧位点观察到的效应分布不同(图4)。因此,将突变的效应与多态性和/或差异性位点的效应相比较,是推断自然选择效应的一个有力方法。这种一般的策略已被用来推断选择在物种内和物种间产生基因表达变异的作用,首先使用从突变积累研究中推断出的突变效应,最近使用从更深入地询问影响特定基因表达的顺式和反式调控突变研究中得出的突变效应。

[图片上传失败...(image-1855b7-1663987238871)]

<figcaption style="margin: 5px 0px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; text-align: center; color: rgb(136, 136, 136); font-size: 14px;">Fig. 4 | The action of natural selection can be inferred from mutational effects.</figcaption>

对基因表达变异的中性和适应性解释可以通过对比新的突变(不受选择影响)和在种群内分离的多态性(其中突变和选择都发生)的影响来区分。图中显示的是变异效应大小图(即突变(红色)和多态性(蓝色)如何改变基因表达水平)。虚线代表效应大小为零(即表达没有变化)。如果一个基因的表达是中性进化的(左图),多态性的影响预计与突变分布中的随机抽样影响一致:突变和多态性的影响分布之间应该没有统计学上的显著差异。相反,如果一个基因的表达处于稳定或定向选择之下,例如,多态性的效应分布将比突变效应的分布具有更低的方差。右图所示的分布与稳定选择相一致,稳定选择将表达量维持在当前水平(即选择不利于减少或增加表达量的变异)。在定向选择下,多态性的平均效应会比突变的平均效应高(向右偏移)或低(向左偏移)。

    如上所述,突变积累研究通常以Vm来衡量突变对基因表达的影响。对于果蝇属来说,这种对表达差异在每一代中如何增加的估计被用来计算三对果蝇物种在突变-漂移平衡下预期演化的基因表达差异。将这三对物种之间观察到的表达差异与这一中性预期相比较,发现表达差异大大低于中性模型的预测,这表明稳定选择起到了减少基因表达水平变化的作用。一项研究将黑腹果蝇的Vm与黑腹果蝇各品系之间的表达差异进行比较,得出了同样的结论。同样,从维持了280代的四种动物突变积累系中估计的Vm,预测的表达变异比最近分离的5个动物系中观察到的表达变异要多得多,因为它们之间相隔了几千代。这些发现,再加上其他类型的分析,导致了一个普遍的观点,即稳定化选择通常在基因组范围内限制了基因表达的变异。

    突变效应的特定基因分布正开始完善这些分析,使人们能够解决关于选择对基因表达变异的影响的更具体问题。例如,在小鼠中检测的两个人类增强子和一个小鼠增强子的突变效应被用来预测其他啮齿动物和灵长类动物品系中分歧位点的效应,并提供了作用于每个增强子的不同类型选择的证据。对于酿酒酵母TDH3基因,已经对在其原生物种中检测的突变和多态性的影响进行了更直接的比较。具体来说,TDH3启动子的顺式调控突变对基因表达水平和基因表达噪声的影响与在85株酿酒酵母中观察到的TDH3启动子的多态性影响进行了比较。这些数据没有显示选择作用于平均表达水平的证据,但确实显示了稳定选择制约表达噪音的证据。比较这些顺式调控突变和多态性在多种环境中的影响,也显示出稳定选择作用于TDH3保持特定程度的表达可塑性的证据。最后,当用诱变法确定的反调控突变的效应与从eQTL图谱推断的影响TDH3表达的多态性的效应相比较时,也可以看到稳定选择的证据。

Skew:关于平均分布不对称性的一种度量。

Kurtosis:相对于分布的中心,有多少权重集中在分布的尾部。

Dispersion:一组数值聚集或分散的程度,通常用分布的方差或标准差来衡量。

Future directions

    分子生物学解释了新的突变如何引起基因表达的变异,而种群遗传学则解释了这些新的突变一旦出现,如何促成进化的分化。我们认为,必须同时考虑这两种观点,以理解我们在野外看到的表达变化的原因。展望未来,该领域至少要在三个关键方向上发展。

    首先,需要对顺式和反式突变的突变效应进行更多的基因特异性分布。之所以需要这样的工作,是因为预计新的突变对基因表达的影响在不同的基因之间以及顺式和反式作用的突变之间是不同的,但我们才开始发现这些差异的范围,还不知道突变效应的哪些特性对准确预测多态性和分化最为重要。新的技术,如调控元件的饱和诱变和大规模平行基因组编辑来验证反式调控基因的功能,正在使这种数据的收集在回答这些问题的必要规模上更加可行。

    尽管有这些进展,但要调查所有物种的所有基因和调控元素可能永远不现实。因此,第二个关键的方向是了解调控网络的属性如何形成突变效应的分布。我们预计这种特性是存在的,因为新突变对基因表达的影响是由它们如何影响调控网络的结构和功能决定的。事实上,一项研究比较了果蝇属的表达多态性和分化模式与调控网络结构,发现受更多转录因子调控的基因不太可能在物种内和物种间出现表达差异,这可能是因为由一组调控因子协调控制的基因表达往往能缓冲影响单个调控因子活性的突变的影响。然而,这种模式可能并不普遍,因为它没有在酵母物种之间观察到,而且在酿酒酵母中没有发现包含eQTL热点的基因座和网络连接之间的关系。然而,关于可能掩盖这些关系的调控网络的形式和功能,仍然存在许多问题。调控网络的背景依赖性进一步增加了这一挑战,因为调控网络在不同的细胞类型、遗传背景、性别和环境中会有所不同。然而,诸如单细胞RNA测序的技术进步也为阐明时间和组织特定的调控网络以及它们如何受到新突变的影响提供了巨大的希望。

    一旦知道或可以预测新突变对基因表达的影响,最后一个挑战是将这些突变引起的基因表达的变化与适应度联系起来,并利用现有的群体遗传学的理论框架来预测不同类型的调控性突变的进化命运。描述一个基因的表达与相对适应度之间关系的适配性曲线在酿酒酵母的少数基因中是可用的,但对于大多数物种的大多数基因来说仍然是未知的。填补这一知识空白将需要更有效的方法来修改基因表达和量化许多物种的适应性。解决这三个关键领域的挑战,对于连接分子生物学和进化生物学这两个往往互不相干的领域至关重要,这对于理解现在存在的生物世界和未来最可能存在的生物世界至关重要。

Reference

Hill, M.S., Vande Zande, P. & Wittkopp, P.J. Molecular and evolutionary processes generating variation in gene expression. Nat Rev Genet 22, 203–215 (2021). https://doi.org/10.1038/s41576-020-00304-w

上一篇下一篇

猜你喜欢

热点阅读