遗传统计|MSMC推断群体历史动态
Multiple Sequentially Markovian Coalescent (MSMC)是一种利用马尔可夫模型推断群体动态历史和群体结构的算法。能够通过输入基因组序列推断群体分歧时间,预测有效群体大小。此算法下常用的软件包括PSMC,SMC++和MSMC。对于几款软件的使用和优劣势比较可以参考DumplingLucky大佬的博客:
MSMC2估计历史有效群体大小
SMC++估计历史有效群体大小
MSMC算法回答两个问题:
- 物种的有效群体大小如何随时间变化?
- 物种之间是何时,以何种方式分歧?
根据分子钟理论,物种所积累的变异量由变异速度和分歧时间决定。变异速度越快,变异经历的时间越长的两个物种,在序列上的差异应当越大。那么按照相同的逻辑,如果已知两个物种的突变速度/传代速度,就可以通过两个物种序列上的变异,反推其所经历的分歧时间和可能的祖先物种。
MSMC推断种群动态历史和分歧时间
MSMC推断群体动态历史
MSMC能够从多序列变异文件中推断有效群体大小随时间的变化,结果图如下,MSMC分别基于不同数量单倍型(最多8个)所模拟的有效群体大小和时间的关系,整张图按照时间顺序应当从右往左看,分别经历了种群扩张-收缩-再扩张-再收缩-扩张的过程。研究古生物学的伙伴还可以结合对应时间下的地质和气候事件分析群体变化的原因。
MSMC推断种群分歧
有了上述分子钟理论的铺垫,理解MSMC推断种群分歧并不算难。如果MSMC输入的个体来自两个群体,动态马尔可夫模型会得到三个溯祖率(coalescent rate)用以推断分歧事件,分别是群体1的种内溯祖率,群体2的种内溯祖率以及群体1和2的种间溯祖率。三个率有点抽象,因此Schiffels和Durbin将其整合成一个参数:交叉溯祖率(the relative cross coalescence rate,rCCR)。
交叉溯祖率的值在0-1之间,越接近1代表两群体此时还是一个群体,rCCR跌倒0就代表两群体完全分歧成为两个独立的群体。因此,rCCR的中点(rCCR=0.5)就被看作是两群体的分歧时间(split time)。
MSMC推断分歧进程曲线。为什么有图的rCCR大于1
就比如这张图的右侧部分按照rCCR的定义,rCCR的值理论上会落在0-1之间,体现一个“相对”的含义。在运行MSMC程序的时候可以自行选择是否标准化CCR,也就是是否进行0-1回归。如不进行标准化则会出现大于1的情况。
总结一下
MSMC估计目标群体溯祖率能得到两个结果,群体规模(population size)和交叉溯祖率(rCCR)。二者分别可以反映单一群体规模动态变化和群体间分歧事件。对于研究物种演化和迁徙具有很大帮助。
参考信息:
1. MSMC and MSMC2: The Multiple Sequentially Markovian Coalescent.https://experiments.springernature.com/articles/10.1007/978-1-0716-0199-0_7