重测序分析(13)群体进化分析之群体选择分析
2022-10-29 本文已影响0人
Bioinfor生信云
进化论
- 达尔文进化论
- 生物物种存在广泛变异
- 自然选择,适者生存和繁殖,不适者淘汰
- 生命是单起源的
- 中性学说
- 大多数突变是“中性”的
- 进化主要是中性突变进行随机的遗传漂变
群体选择
- 正选择
当一个群体中出现能够提高个体生存力或育性的突变时,具有该基因的个体将比其它个体留下更多的子代,而突变基因最终在整个群体中扩散。
有利突变产生 - 受到选择 - 选择性清除

- 负选择
指群体中出现有害突变时,携带该基因的个体会因为生存力或育性降低而从群体中淘汰。
有害突变 - 淘汰 - 多态性降低

-
平衡选择
指多个等位基因在一个群体的基因库中以高于遗传漂变预期的频率被保留。
如杂合子优势
如稀有突变有更高的适应性
正选择的特征及检验方法
- 受选择位点的遗传多态性降低
- 引起选择性清除( Selective Sweep )
– 受选择位点两侧序列多态性因连带效应保持很低水平 - 引起选择搭载效应(hitchhiking effort)
– 对正选择位点的选择作用会引起相邻连锁位点频率上升 - 引起连锁不平衡的增加
群体多态性参数θ
遗传多态性:在一个群体中 ,存在两个或者多个有着相当高频率(通常大于1%)的等位基因时就称为遗传多态性。
Ne为有效群体大小,μ为每个位点的突变速率,群体多态性参数θ定义为:

θ常用的估算:
- 分离位点数目(θw)
分离位点是指相关基因在多序列比对中表现出多态性的位置。 - 核苷酸多样性 π(核苷酸水平杂合度)
样本群体中两两序列间每个位点上核苷酸差异的平均值
群体内选择检验Tajima's D
Tajima's D 检验:通过比较θ的两个估计值θw和π的差异来正选择效应

Tajima's D >0 存在大量的中等频率的等位基因 ,可能是由于群体瓶颈效应,群体结构,或者平衡选择引起的
Tajima's D <0 存在大量的低频等位基因位点;可能受到负向选择或者强烈的正向选择作用
Tajima's D =0 符合中性进化假说
基于群体间分歧度检验- FST
FST:固定分化指数,估计亚种群间平均多态性大小与整个种群平均多态性大小的差异,反映了群体结构的变化。

在中性进化条件下, FST的大小主要决定于遗传漂变和迁移等因素的影响,如果种群中一个等位基因因为对于特定生境的适合度较高而经历适应性选择, 那么其频率的升高会增大种群分化水平,有较高的 FST值( 0<= FST<=1, FST为 1 表示亚种群间存在明显的种群分化)
基于群体间分歧度检验-ROD
ROD:基于野生群体和驯化群体间核酸多态性参数π的差异识别选择信号,用来测量驯化群体相对于野生群体的群体多态性损失。

软件和数据准备
软件:vcftools
数据:vcf文件 all.vcf 样品亚群列表文件sample1.txt、sample2.txt
参考脚本
pi值计算
vcftools --vcf all.vcf \ # 输入文件
--window-pi 100000 \ # 设置窗口大小
--window-pi-step 10000 \ #每次滑动的距离
--keep sample1.txt \ #亚群列表
--out ./Pi.sample1 #输出文件

Tajima's D计算
vcftools --vcf all.vcf \
--TajimaD 100000 \
--keep sample1.txt \
--out TajimaD.sample1

FST计算
vcftools --vcf all.vcf \#输入文件
--fst-window-size 100000 \ #设置窗口大小
--fst-window-step 10000 \ #每次滑动的距离
--weir-fst-pop sample1.txt \ #第一个亚群列表
--weir-fst-pop sample2.txt \ #第二个亚群列表
--out ./Fst.sample1.sample2 #输出文件
