Accelerated evolution of an Lhx2

2020-05-28  本文已影响0人  扇子和杯子

1.背景

社会等级制度描绘的其实是群居动物的社会结构。等级制度存在于很多物种中,比如昆虫、鸡、哺乳动物和灵长类动物。一个组织有序的社会系统可以适应不同的生态系统。

近来,在理解昆虫等级制度的分子机制方面取得了新的进展。但是我们不知道遗传突变会不会造成胎盘哺乳动物的等级制度出现,而且不确定这是不是存在于羊膜动物的一种普遍的分子机制。

陆生脊椎动物中的胎盘哺乳分支在地球上分布非常广泛。该分支祖先物种是独居生活,但是现存的胎盘哺乳动物是群居生活的。作为有序社会的重要特征,哺乳动物的等级制度很有可能在独居到群居的转变中出现。目前推测等级制度背后的驱动力可能是达尔文阳性正选择。除此之外,胎盘动物的其他特征也在同一时间出现,比如绒毛尿囊胎盘、更长的妊娠期、更短的哺乳期、持续分泌成分复杂的乳汁。因此猜测胎盘哺乳动物的加速进化序列可能参与了等级制度和其他特异性性状的调控。

目前的方法只能检测到保守且可能具有功能的区域的加速进化,为了搜索PASs(placental-accelerated sequences),我们需要开发一种新的方法。另外,现存方法之间的一致性很低,针对人类,只能检测到一条加速进化区域。

为此,我们开发了一个新的方法,对应软件叫Kung-Fu Panda (KFP)。比较每个滑动窗口中红色branch和非红色branch的normalized observed evolutionary rate,通过泊松分布确定加速进化区段。另外,我们考虑到不同物种间的进化速率不同,估计的分歧时间可能不准的问题。KFP软件可以准确快速扫描整个多序列比对(包括保守和不保守区域),精确找到加速区域。

用KFP扫描整个基因组寻找PASs后,对最明显的加速进化区域(PAS1)做功能分析。PAS1是Lhx2基因附近的一段长约700bp的非编码区域。先前的多份研究证明PAS1作为增强子,只调控胎儿神经系统发育过程中Lhx2的表达。不同羊膜动物的PAS1对成神经细胞瘤中报告基因的表达具有不同的影响。PAS1-knock in的小鼠会处于优势地位,而敲除小鼠则不会出现等级意识。可以通过突变PAS1,改变小鼠的主宰或者附属地位。

该工作再一次强调了调控元件在羊膜动物等级制度进化过程中的作用,并为理解其产生所涉及的分子机制提供了第一手的资料。

2.实验过程

2.1. 全基因范围扫描PASs区域

构建16个羊膜动物的系统发生树并确定枝长,其中涉及12个哺乳动物、1个有袋目哺乳动物、2个鸟类和1个爬行动物。红枝表明哺乳动物等级制度可能出现在胎盘哺乳动物的ancestral lineage上。

备注:共有19个羊膜动物。实线连接的16个动物用来搜寻加速进化区域,另外三个用来验证KFP检验的结果。加粗、加下划线的物种用来做功能分析。

KFP参数设置为size-100bp,slide-20bp,扫描16个动物的multi-genome 比对。每个窗口内,通过简约法确定内部节点祖先状态的可能性大小,计算每个branch的每个窗口的进化速率。

不同lineage的进化速率不同,估计的分歧时间也存在不确定性。低估分歧时间也就相当于高估进化速率,我们需要为每条branch计算一个全基因组校正因子\alpha,调整每条branch内每个窗口的进化速率。

接着比较red branch和non-red branch的normalized evolutionary rate,根据泊松分布检验red branch特有的加速区域。共分析了3,269,214个窗口,找到了28个显著窗口(p < 3.06 \times10^{-9},相当于所有检验的FPR=0.01)。syntenic alignments确保找的加速区段是同源区段中的加速区段。

PAS1是胎盘哺乳动物祖先lineage中最明显的加速进化区域,由两个加速cluster及其邻近序列组成。第一个cluster位于第二个cluster下游160bp处,这两个cluster都位于Lhx2major转录本的下游,在minor transcript Lhx2-204的下游。为了进一步验证和可视化PAS1的加速进化,把其他三种羊膜动物加进来,计算PAS1的进化速率。用genome browser看了下这些物种中PAS1区域的序列替换情况

2.2. PAS1的增强子活性在胚胎神经系统中发挥的作用


附录:

  1. 滑动窗口(HOP),也被称作 Sliding Window。不同于滚动窗口,滑动窗口的窗口可以重叠。滑动窗口有两个参数:size 和slide。size为窗口的大小,slide为每次滑动的步长。如果slide < size,则窗口会重叠,每个元素会被分配到多个窗口。如果 slide = size,则等同于滚动窗口(TUMBLE)。如果 slide > size,则为跳跃窗口,窗口之间不重叠且有间隙。
    https://yq.aliyun.com/articles/669224

  2. 曼哈顿图:每个点代表一个SNP位点,横坐标是SNP位点在染色体上的位置,纵坐标是关联分析计算出的p值。为了美观,不同染色体上的SNP位点用不同颜色标识。纵轴上的虚线代表阈值,p值越小,对应到纵轴的值越大。通常在阈值上方的SNP位点认为是和疾病或者形状相关联的位点。
    https://www.jianshu.com/p/609149db6fab

  3. clade和lineage的区别:clade是一个单源集合,由一个共同祖先和它所有后代组成,如B。一个clade套在另一个clade中,成为nest现象。lineage是祖先和后代之间的历时联系,即A和D之间。图中的lineage是D的ancestry lineage

  1. syntenic alignments:假定现在有两条基因组DNA序列,syntenic alignments就是计算每条序列的子序列有序列表,对应的子序列对具有更高的相性度。syntenic alignments在比较相关物种的基因组DNA,识别保守基因时是很有用的。

    这里为了找到胎盘哺乳动物特异的加速进化区域,先做genome-genome alignment,然后在对应片段中寻找胎盘哺乳动物特异的进化速率较快的区段。因为担心出现1号染色体对8号染色体(即使相似性高,也很可能不是同源基因)的情况,所以做了syntenic alignment确保结果是同源片段中进化速率的

  2. NJ和UPGMA建树法:
    UPGMA是Sokal和Michener提出的一种自底向上的层次聚类法,全称为unweighted pair group method with arithmetic mean(非加权组平均法)。

    定义任意两个簇A、B之间的距离为A内objectx和B内objecty两两距离和的平均,即d(A,B)={{1\over{|A| \cdot |B|}} \sum_{x \in A}\sum_{y \in B}}d(x,y)其他簇到簇AB的距离等于d(A \bigcup B,X)={{|A| \cdot d_{A,X}+|B| \cdot d_{B,X}}\over{|A|+|B|}}

    UPGMA会产生一个有根树,每一步都把最近的两个簇A,B合并,形成一个更高级别的簇AB,内部节点下的所有叶子结点到内部节点的距离相等,最后形成一棵有根树。在系统发生领域,因为UPGMA假定进化速率恒定(分子钟假设),所以并不适合推断物种关系(除非可以证明数据符合假设)

    NJ法是Naruya Saitou和Masatoshi Nei提出的一种自底向上的聚类算法,全称为Neighbor joining,不要求具有相同的进化速率。它是一种星状分解算法,从一颗星状树开始,选择能使树长减少最大的一对,随后产生一个新节点来替代两个加入的节点,一步步降低网络维数。

  3. 进化速率:某一段绝对时间内的遗传改变量 。与分子进化速率相关的分子钟概念源于对蛋白质序列的研究。Zuckerkandl 和 Pauling (1962, 1965) 及M argoliash (1963)在比较几种动物的血红蛋白、细胞色素C的序列后最先注意到:这些蛋白质的氨基酸取代速率在不同物种间大致相同,即分子水平的进化存在恒速现象。于是,Zuckerkandl和Pauling提出了进化在分子水平存在“时钟”。若我们得到的分子平均取代速率是基本恒定的,我们称这个恒定取代速率为分子钟,即DNA和蛋白质的进化速率相对恒定,不随物种种类和时间维度而变化。

    计算某分类单元的平均氨基酸或核苷酸取代速率:
    r={K\over{2T}}
    r为氨基酸或核苷酸取代速率;K为两同源序列的氨基酸或核苷酸取代总数;T为物种间的分歧年代

上一篇下一篇

猜你喜欢

热点阅读