每日paper - 20211229 - startmrca 推
Estimating Time to the Common Ancestor for a Beneficial Allele
2018 年发表在 Molecular Biology and Evolution 上。第一作者与通讯作者为芝加哥大学 Department of Ecology and Evolution 的 Joel Smith。
接上篇:每日paper - 20211207 - smartmrca 推断有利等位基因的 allele age(一)
研究者们开发的这一模型根据已有的样品推算有利变异的最近共同祖先 TMRCA。对于有利突变,往回追溯,会发现其频率的下降与选择强度是成比例的;不同的携带该有利突变的单倍型往回追溯,最终会 coalescent。这对于初始个体数目少的群体的增长也是同样的道理。
因此,受选择位点的群体历史往往是 “star-shaped”,就可以近似认为,在选择作用强时,lineages 之间是相互独立的。但是这里也有一个需要强调的前提,就是有利等位基因出现后就立即受到选择,否则就会存在多个祖先单倍型、谱系历史不是 star-shaped。
将关注位点的上下游区域分开来考虑。
![](https://img.haomeiwen.com/i27255038/7af3450a54a77601.png)
经推导得公式:
![](https://img.haomeiwen.com/i27255038/bb365a7cc48250f6.png)
对模拟数据的测试显示,在选择作用强、选择的 reference panel 与待检测群体的分化程度合适时,模型的准确率高。有利变异的频率对结果的影响不是很大,在频率低时略微地更准确一些。如果选择的外群与待检测群体的分化程度过高,会高估 TMRCA。
![](https://img.haomeiwen.com/i27255038/ad6f39db9b956f0d.png)
文中的 reference panel 分化时间 N 和 0.5N 分别近似于 Fst 0.4 和 0.2。
除了 reference panel 的分化时间以外,还存在另一个可能的 bias 的来源。一些重组事件可能并不能被观察到,因为当有利等位基因频率上升后,一些重组事件可能并不会导致 ancestral 和 background 之间的 transition(background 指的是有利等位基因携带的单倍型,ancestral 指的是没有有利等位基因的单倍型)。一个可能的解决方案是将基于频率的替换可能性考虑进来(Chen at al., 2015)。
模型假设所有单倍型的进化历史是相互独立的,在样品量过大、TMRCA 较为久远、以及有利变异出现后经历了一段时间才开始受到选择作用的情况下,这个假设往往是不成立的。
对变异和重组率的正确的判断对于模型的准确性有非常大的影响。在没有可用的 fine-scale 重组图谱的情况下,建议使用研究区域的 uniform 重组率。选择合适的突变率也很重要。
startmrca 的 github 网址 https://github.com/jhavsmith/startmrca