组学学习

生信分析18:如何鉴定选择清除区域

2023-09-20  本文已影响0人  我与生信
文献18中,作者用了很大篇幅去鉴定各个亚群的受选择区域,然后与其性状关联。本次推送将介绍如何进行选择清除分析。

相关概念

选择即有条件的筛选,在群体研究中可以分成自然选择和人工选择。

自然选择最初由达尔文提出,适者生存,不适者被淘汰,是适应性进化的基础。人工选择一般是针对感兴趣的性状进行强化,不感兴趣的性状逐渐减弱,是作物驯化的基础。

根据被选择等位基因或单倍型频率的变化方向,选择可以被分为正向选择、负向选择和平衡选择。

(1)正向选择 positive selection

正向选择是选择中最常见的一种形式,当群体中出现新的有利突变时,具有该突变的个体将比其它个体留下更多的子代,而突变最终在整个群体中扩散。目前,绝大多数的选择信号检验方法都是针对正选择。

(2)负向选择 negative selection

负向选择是指群体中的某种表型性状不再适应目前环境或育种需求时,与该性状相关联的等位基因频率将会降低或甚至淘汰的过程,因此也被称为净化选择 (purifying selection)

(3)平衡选择 balancing selection

当一个基因座上,两个等位基因均表现出相同的适应性时,群体中的这些位点将始终在选择的作用下保持一定的遗传多态、处于一定的动态平衡。

选择对基因组的影响

Fig 1

选择会引起:

(1)选择清除 (Select Sweep)

(2)遗传多样性的降低

(3)连锁不平衡增加

(4)等位基因频率改变

(5)搭便车效应

鉴定选择清除区域/正选择/选择的原理

Fig 2

(1)基于核苷酸多样性的降低:ROD、π、Fst等

(2)基于等位基因频率改变:CLR、XP-CLR、Tajima’ D等

(3)基于连锁不平衡的增加:XPEHH等

基于遗传多样性降低鉴定选择清除区域

01 Fst和pi

群体间遗传分化指数Fst 是种群分化和遗传距离的一种衡量方法。Fst于0-1之间,越接近1表示两个群体之间分化程度越大。

核苷酸多样性π 是衡量特定群体多态性高低的参数,是指在同一群体中随机挑选的两条DNA序列在各个核首酸位点上核昔酸差异的均值。

两个群体(以野生群体和驯化群体为例)相比,受到选择的区域核苷酸多样性降低,群体分化指数升高。

Fig 3

通过Fig 3的命令可以对基因组滑窗计算π和Fst

Fig 4

结合pi和Fst筛选受选择区域,对于栽培群体,选择Fst最高的5%且π 比值(野生/栽培)最高的5%作为受选择区。Fig 4是藏猪群体中的展示方式(ref3),利用上一步计算得到的全基因组pi和Fst即可出图。

02 ROD

ROD (the reduction of diversity)

Fig 5

基于野生群体和栽培群体的核苷酸多样性差异作为受选择信号,Fig5计算得到的ROD越大,说明驯化群体的遗传多样性越小

基于等位基因频率改变鉴定选择清除区域

01 CLR和XP-CLR

Fig 6

在一个随机群体中(Fig 6-1),某个个体产生了有利突变(Fig 6-2),该位点会在群体中迅速扩散。由于连锁,该位点邻近区域的等位基因也被迅速固定(Fig 6-3),使得该位点邻近区域的核苷酸多样性显著降低。由于重组的发生,不具有该有利突变的个体也逐渐获得该有利突变(Fig 6-4),导致该有利位点的基因型频率仍然很高,但是周围区域的基因型频率降低(Fig 6-5)。最终会发现该位点的基因型频率很高,但是周围区域的等位基因频率很低(Fig 6-6)。这种现象可以通过复合似然比检验CLR检测。

但是CLR只能计算一个群体的受选择信号。在CLR基础上改进得到XP-CLR(跨群体的复合似然比检验),可以用来检验两个群体间相对受选择的区域。有与目标性状相反的群体可以更好的降低假阳性。

Fig 7

Fig 8

Fig 9

(1)根据CLR鉴定受选择区域   软件SweeD

下载链接https://github.com/alachins/sweed

注意,该软件无法直接按滑窗计算,所以需要自行拆分(Fig 7)。

用到的两个文件:sample包含染色体编号(Fig 8).

chr_gird以逗号分隔,第一列是染色体编号,第二列是需要划分的窗格数目(Fig 9,参考链接5)

输出文件有两种:Info存放调用的程序信息,report存放输出结果,Likelihood为结果。

Fig 10

(2)根据XP-CLR鉴定受选择区域(Fig 10)

注意samplesA和B的顺序,鉴定栽培群体相对于野生群体的受选择区域,要把栽培群体放在samplesB

02 Tajima’ sD

Fig 11

中性检验:以中性进化学说作为零假设,通过统计检验的方法检测一个群体的遗传参数是否符合中性进化模型,如果不符合表明有选择效应的存在。

Tajima’ sD 是一种最常用的中性检验,通过比较群体多样性的两个估计值π和θw的差异,检测正选择信号。Tajima’ sD 小于0说明受到选择(Fig 11)。

Fig 12

Vcftools可以计算TajimaD,但是无法滑窗(Fig 12)

参考链接

[1]选择带来的影响

Scheinfeldt, Laura B, and Sarah A Tishkoff. “Recent human adaptation: genomic approaches, interpretation and insights.” Nature reviews. Genetics vol. 14,10 (2013): 692-702. doi:10.1038/nrg3604

[2]鉴定受选择区域的方法

Biswas, Shameek, and Joshua M Akey. “Genomic insights into positive selection.” Trends in genetics : TIG vol. 22,8 (2006): 437-46. doi:10.1016/j.tig.2006.06.005

[3]pi和Fst联合筛选受选择区域

Li, Mingzhou et al. “Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars.” Nature genetics vol. 45,12 (2013): 1431-8. doi:10.1038/ng.2811

[4]www.omicsclass.com

[5]Sweed计算CLR

https://zhuanlan.zhihu.com/p/268019332

上一篇下一篇

猜你喜欢

热点阅读