2021-11-06从人见人爱的向日葵说起——Ks与全基因组多倍
向日葵是吃瓜群众喜闻乐见的一种植物,除了能够长出朵朵葵花向太阳的萌萌大脑袋,还能结出令人爱不释手的瓜子,无论干炒、奶油、五香,都很好吃!不仅如此,向日葵还是重要的油料作物,葵花子油颜色金黄,气味清香,含有大量的亚油酸等人体必需的不饱和脂肪酸,可以促进人体细胞的再生和成长,保护皮肤健康,并能减少胆固醇在血液中的淤积,是一种高级营养油。新疆盛产葵花,维吾尔族姑娘的辫子又多又长,乌黑油亮,据说与姑娘们爱吃葵花子有关。
image向日葵还是两个遥远的国家——俄罗斯和秘鲁——的国花。这两个国家的位置,也似乎透漏了向日葵的身世。向日葵原产南美洲,在北美洲驯化,西班牙人于1510年从北美带到欧洲,最初为观赏用。后来传入今俄罗斯境内,深受俄罗斯人民喜爱,前苏联时期被定为国花,并延续至今。向日葵明朝时期传入我国,现全国广泛栽种。
image人们对向日葵是如此喜爱,还激发了人们的创作热情,向日葵的花语便是沉默的爱,没有说出口的爱。这来自一则神话故事:
传说克丽泰是一位水泽仙女。一天,她在树林里遇见了正在狩猎的太阳神阿波罗,她深深为这位俊美的神所着迷,疯狂地爱上了他。可是,阿波罗连正眼也不瞧她一下就走了。克丽泰热切地盼望有一天阿波罗能对她说说话,但她却再也没有遇见过他。于是她只能每天注视着天空,看着阿波罗驾着金碧辉煌的日车划过天空。她目不转睛地注视着阿波罗的行程,直到他下山。每天每天,她就这样呆坐着,头发散乱,面容憔悴。一到日出,她便望向太阳。后来,众神怜悯她,把她变成一大朵金黄色的向日葵。她的脸儿变成了花盘,永远向着太阳,每日追随他——阿波罗,向他诉说她永远不变的恋情和爱慕。因此,向日葵的花语就是——沉默的爱。
image上面的神话故事提到向日葵的花盘能永远朝向太阳,这是植物的向光性造成的。在植物学领域,向日葵也是研究植物向光性的模式物种。在今年5月份发表的一篇nature文章中,通过纯三代测序,组装出向日葵3Gb的基因组,而这也占总基因组的80%。与之相比较,拟南芥的基因组只有125Mb,水稻基因组466Mb,苹果基因组742Mb,人的基因组2.91Gb。向日葵的基因组为什么这么大呢?
研究发现,向日葵的基因组经历了多次全基因组加倍事件,才形成了现在巨大的基因组。通过与其它研究全基因组加倍事件的经典物种比较分析发现,在约122~164 MYA(百万年前),向日葵经历了与其他物种共同发生的古三倍化事件(WGT-γ)。在约38-50MYA,向日葵还与洋蓟、莴苣共同经历了一次全基因组三倍化事件(WGT-1),这三种植物都属于菊类分支II。在约29 MYA向日葵又单独发生了一次全基因组二倍化事件(WGD-2)。在这些过程中,向日葵的基因组染色体发生了至少17次断裂以及126次融合,最终发展成当前17条染色体的核型。
image双子叶植物的祖先拥有7条染色体,经历WGT-γ后变成21条染色体,葡萄的基因组被认为最好地保留了古老祖先的染色体遗迹,因此可以作为外类群。咖啡属于菊类分支I,因此没有经历WGT1和WGD2。植物染色体上的不同颜色与相应的双子叶植物祖先的染色体颜色一致。
那么问题来了,我们是如何凭借基因组数据,就可以推算全基因组加倍事件的发生以及发生事件呢?目前有多种方法可以用来识别全基因组加倍事件。
第一种方法比较直观,通过染色体共线性(synteny)方式来识别基因组加倍事件。其方法是比较两个基因组的序列并将同源序列的位置绘制成点状图,如果能在点状图中发现比较明显的长片段,并且这样的长片段比较多,便可以推测是由于大尺度的基因组重复以后保留下来的痕迹,而一般我们假想这种大尺度的基因组重复往往就是全基因组的重复。同样,对于单个物种而言,我们也可以绘制基因组内部的共线性的点状图,如果发现同一个物种的基因组的区间可以匹配到多个不同的区间中,这就暗示了该物种经历过基因组的加倍事件。利用共线性方法有一个弊端就是需要依赖全基因组的序列和基因顺序,因此只有做了全基因组测序才能进行共线性分析,不过这在基因组测序技术飞速发展的今天也不是什么难事。
image在向日葵的这篇文章中,作者就用到了这种方法,三个点状图分别是向日葵、洋蓟、咖啡的基因组内部共线性分析。每个图的横纵坐标的方格代表一条染色体。例如,最左边的向日葵基因组有17条染色体。对角线当然是每个基因和自己本身的共线性。而对角线之外的点,代表分布在不同位置的旁系同源基因对。图中圆圈标注的位置,就是明显的基因组加倍事件的痕迹——3号染色体的一段和9号染色体的一段有明显的共线性。手机屏幕太小看不清?下面有高清图:
image这个明显的痕迹就是向日葵独有的全基因组二倍化事件WGD-2留下的痕迹,当然其实还有很多,眼力好的同学可以自己连连看一下。那么前两次WGT留下的痕迹呢?全基因组加倍事件可以一次性增加一个物种所有的基因拷贝,在自然选择的作用下,倍增后的基因经历不同的命运:部分拷贝丢失,失去功能(假基因化);部分拷贝获得新的功能(新功能化);或者各自行使祖先基因的部分功能(亚功能化)。
对于经历过多次全基因组加倍事件的物种来说,后来的加倍事件会加速上一次加倍事件的基因丢失,造成上一次加倍事件的痕迹越来越不明显——长江后浪推前浪,前浪死在沙滩上。因此,在向日葵中就很难找到原来三倍化的痕迹(否则在向日葵中将会出现233个共线性区域)。但是在洋蓟和咖啡的基因组中,还能明显发现全基因组三倍化的痕迹,分别对应WGT-1和WGT-γ。
image第二种识别全基因组加倍事件的方法就是同义突变率Ks方法,这也是目前比较流行的方法。这种方法的背景是认为Ks值在某种程度上反映了同源基因的产生时间。而全基因组加倍事件会产生大量的同源基因,反映在Ks值上便是会有大量的Ks值接近的同源基因对的产生,这样通过绘制Ks值的分布图便可以发现明显的Ks值峰,而这些峰也就对应了全基因组加倍事件。这种方法是基于两点假设:1.基因的突变频率是稳定的;2.同义突变(Ks)不会影响物种适应性,因为并不会造成氨基酸序列的变化。
举个简单的例子,如果我们要进行人口调查,研究哪一年是生育高峰,我们不需要回去查医院的出生记录(或者根本没有),只需要调查现在的人口年龄构成,就可以看出哪个年龄是有一个高峰,那么那个年龄的人出生的年份,就是生育高峰。甚至,假如被调查的人都忘记了自己的年龄(一个很大的假如,可以认为是集体失忆造成的),我们都可以通过脸上的皱纹、头发的稀疏等外部特征来推断被调查人的年龄。如果是这样的话,我们同样是基于两点假设:1.皱纹的增长,头发的脱落是稳定的;2.皱纹和头发并不会影响死亡率。
image言归正传,要进行Ks分析,首先要找到同源基因对,在不同的物种里面(比如向日葵-咖啡),是找最近的直系同源基因(ortholog),而在基因组内部(比如向日葵-向日葵),则是找最近的旁系同源基因(paralog)。通过计算这些基因的Ks值,我们就可以绘制出不同Ks值基因数量的分布图。
image在这幅图中,横坐标是同源基因对的Ks值的分布( 最大似然法F3x4 model),纵坐标为同源基因的数量,不同颜色的柱子代表不同的物种组合,比如黑色就是向日葵基因组内部的Ks分布。每一个峰都对应一次全基因组加倍事件,比如向日葵的WGD-2,因为发生的较晚,所以峰所在的位置Ks值较小,而且峰比较明显。而最下面橙色的峰,是咖啡发生的全基因组三倍化事件,峰值所在位置Ks值较大,但峰已经很不明显。同样,蓝色的峰为洋蓟的WGT-1事件,紫色的峰代表向日葵和咖啡的分化事件。最左边向日葵黑色的峰,其实是向日葵的重复序列造成的,不是真正的Ks峰。
不仅如此,有了Ks值,我们还可以计算全基因组加倍事件发生的时间,只要知道碱基同义替换的速率r就可以了。在这里,这篇文章的作者在一个神奇的网站www.timetree.org查询了物种的分化时间,向日葵和咖啡的分化时间是100MYA,那么根据公式:分化时间=Ks/2r,就可以计算每年每个同义替换位点发生替换的速率为r=8.25E-9。然后用这个r值去计算不同的基因组加倍事件发生的时间,最终得出了我们在上文提到的时间:WGTγ (Ks=2.02-2.71, 122-164 MYA), WGT1 (Ks=0.63-0.82, 38-50 MYA) ,以及WGD2 (Ks=0.48, 29 MYA)。是不是跟做小学乘除法一样简单?
image当然Ks值也有一些不可避免的限制,比如很难应用于比较古老的基因组加倍事件的识别,这是因为随着时间的推移,同源基因对之间的Ks值会发生变化,而对于古老的基因组加倍事件而言,其所产生的同源基因对的Ks值的变化可大可小,最后反映在Ks值的分布上就会发现方差很大的一些Ks,这样就很难推算是否有一个明显的Ks峰值了。另外,由于随着时间的延长,同义替换趋于饱和,会导致Ks值计算的偏差,对于寻找古老的基因组加倍事件造成困难。
对于这些问题,我们可以用第三种方法——系统发生组学的方法来解决。系统发生组学是通过构建大量的基因树,然后比较基因树和物种关系的参考系统发生树,找到上面的差异,这些差异往往是由于基因重复导致的。如果能发现大量的基因树中在同一物种树节点上都有基因重复事件,那么一个比较直接的猜想就是这个节点发生了一次基因组的复制事件。系统发生组学的方法比较困难,计算量大,这里不再详述。
参考文献:
Badouin H, Gouzy J, Grassa C J, et al. The sunflower genome provides insights into oil metabolism, flowering and Asterid evolution[J]. Nature, 2017, 546.
王海峰. 利用高通量测序技术研究基因组复制与关系以及可变剪切[D]. 复旦大学, 2014.
Goldman N, Yang Z. A codon-based model of nucleotide substitution for protein-coding DNA sequences.[J]. Molecular Biology & Evolution, 1994, 11(5):725.