数量遗传或生统生物信息学生物信息

群体遗传 || 选择压力分析_基础知识

2019-12-26 本文已影响0人 Dawn_WangTP

个人博客原文地址

基本原理

[站外图片上传中...(image-38780a-1577372733833)]
原始群体中，遗传多样性是十分高的，整个序列的核酸diversity都高。而在受到选择之后，diversity会发生波动。核酸多样性下降可能就是由于under selection导致的。

在演化/驯化过程中，如果某一基因X占优势，即X的基因型占据主导地位，则基因X所在区域的杂合率/多样性会显著下降。本质就是比较基因组不同区域多样性（杂合率）的变化

群体遗传关心的问题：
- 遗传结构（phylogeny+structure）
- 基因组上受选择区域：群体水平基因组不同位置的区域遗传多样性变化的规律（例如：Pi、Tajima's D, Fst）
变异类型：
- 中性突变（同义、相同类型的氨基酸、不影响环境适应性）：平衡选择，这种基因型频率是大致恒定的
- 有利突变（正选择）：选择扫荡（Selective sweep），与有利突变的中性突变的频率会显著提升
  selective sweeps
- 有害突变（负选择）：背景选择（negative selection/background selection/ purifying selection） 是潜在的噪音

负选择会对正选择有一定的干扰作用，都能产生大量的低频突变，但是正选择会产生相对较多的高频突变。

选择压力的分析方法

单群体受选择区域的检验

sita计算

有效群体大小、每个位点突变速率
sitaW：基于全部序列内分离位点的个数（差异位点/核酸碱基的数量）；对低频的突变更加敏感。
pi值：计算两两序列的差异度，然后求均值。与计算的群体有关：
- 群体总体的pi：计算出的pi值即代表这个小群体的pi值，核酸多样性水平的高低。
- 基因组序列层面做检测，检测基因组不同区域的选择压力水平，一般采取滑动窗口的方式，例如以100kb的窗口10kb步移扫描pi值均值大小，从而计算序列层面不同区域的pi值变化。将pi值最极端区域（min 1%/5%）区域就作为受选择的区域
Tajima's D。如果某个区域的Tajima's D值下降了，则代表这个区域可能会受到选择（但是无法区分出正负选择（高频突变会导致Pi值上升，而低频突变会导致W值上升）
Tajima's D
H检验(Fay & Wu)：更关注正选择的高频突变。

两个亚群体之间的比较

多样性水平在亚群间比较，一般包括线性相关分析、亚群体间的差异比较两类。动植物重测序多是后者。Fst/pi ratio基于pi值。

群体分化程度Fst (Fixation index): 比较两个亚群体间的Pi值和亚群体内的Pi值的差异。
- 由PI值计算演变来（序列两两差异取均值）
- 两个亚群体在某一段seq区域的差异度。0是无差异，数值越大，则说明两个亚群体之间已经发生了明显的分化（亚群内个体相似，亚群间差异大）

Fst=(\pi(between) - \pi(within))/ \pi(between)

多样性变化倍数Pi ratio：某区间在亚群间的多样性差异的倍数，简单粗暴，就关注多样性值的高低变化。
- 例如野生群体A/栽培群体B；野生群体A的多样性较高，而栽培群体B的多样性较低，所以多样性降低最显著的基因组区域，就与驯化改良基因相关
其它比较值：ROD值、XP-CLR值等。而多个品种间的比较分化差异的di值

一般文章中都是将单群体的（PI, TajamaD）和多群体间比较的(Fst)值结合起来使用：单群体内多样性下降，两个群体间多样性分化程度上升，从而可能是受选择基因。（多是以滑动窗口的方法50k/100k）

所需材料和数据

选择多品种，保证亚群体中更多的遗传多样性能被代表，在品种内少量个体即可（8个个体+以上基本可以）。
选择WGS，而非GBS。GBS可能~10K出现次标记，而在自然群体中，LD衰减快，如到0.1仅10K，导致丢失一些区域的信息。
测序深度：后续主流是10X。8X的深度最优性价比

参考学习资料：选择压力分析(https://www.omicshare.com/class/home/index/series?id=7)

上一篇下一篇

猜你喜欢

热点阅读