47- 基因组预测的基础(1)
此部分所有内容来自法国INRA的A. Legarra授课。
GP的发展历史
![](https://img.haomeiwen.com/i24959989/577b3161eea2b885.png)
marker
raw files(不喜欢的格式,需要转换):
![](https://img.haomeiwen.com/i24959989/206ec7187b112596.png)
可以转为每个动物占1行:
![](https://img.haomeiwen.com/i24959989/4b1568d9ea1b0556.png)
![](https://img.haomeiwen.com/i24959989/e25f6e1a0ecb24c0.png)
另一种(A与B格式):
![](https://img.haomeiwen.com/i24959989/34a30bbd8dc376fe.png)
map 文件:
![](https://img.haomeiwen.com/i24959989/c3699e13ffdd82e8.png)
A/C的从编码(数字)
![](https://img.haomeiwen.com/i24959989/e50321156a1d82bb.png)
也可以是A为参考:
![](https://img.haomeiwen.com/i24959989/527816d41fcd9315.png)
![](https://img.haomeiwen.com/i24959989/db76402db8906ea1.png)
BLUPF90格式:
![](https://img.haomeiwen.com/i24959989/427ff94b3d3b138f.png)
怎么操作SNP文件:
![](https://img.haomeiwen.com/i24959989/13d41cd924c8800e.png)
![](https://img.haomeiwen.com/i24959989/3fe12cd4f3171477.png)
如果想要合并多个SNP文件,需要知道SNP名字和每个位点参考的值
![](https://img.haomeiwen.com/i24959989/91a365b58508b746.png)
质控
-
call rate:
image.png
-
等位基因频率
image.png
![](https://img.haomeiwen.com/i24959989/4c7fc62eaf500e92.png)
-
最小等位基因频率MAF
image.png
为啥MAF这么重要?
image.png
-
哈代温伯格平衡HWE
image.png
杂交后代不会有HWE
通常因为XY不对称,不会使用性染色体
在GP中使用性染色体更加复杂(美国的奶牛使用),需要查看:
![](https://img.haomeiwen.com/i24959989/d4d783b6da4df3b8.png)
- 孟德尔冲突
image.png
如果一个SNP有太多的孟德尔冲突,则可能检测错误,需要删去这个SNP
如果一个个体有太多的孟德尔冲突,则动物的ID出错或者在系谱出现错误
可以使用Seekparent.f90软件查找其父母 - 重复基因型
如果不是克隆,这应该是标记错误造成的 - 连锁不平衡LD:两个位点的非随机组合
image.png
跨品种预测很难实现,因为LD的差别会大一些。
测量LD:r2
image.png
基因内容(GC)的特性
![](https://img.haomeiwen.com/i24959989/278dab7b00647ffa.png)
均值和方差:
![](https://img.haomeiwen.com/i24959989/6c31a35a7c46b596.png)
数据质控前后的不同
![](https://img.haomeiwen.com/i24959989/8c728ad11624e3a0.png)
preGSf90处理小于5000个个体数据(基因型); qcf90处理更大的数据
填充缺失的SNP
为啥呢?
- 有的软件不能使用缺失值
- 使用廉价的芯片(可以往高密度进行填充)
填充策略
- 基于家庭:我们比较从父母传给后代的染色体块并填补空缺
例子:
![](https://img.haomeiwen.com/i24959989/5bcb63b4596fc49c.png)
![](https://img.haomeiwen.com/i24959989/c0e0e9986b5772f6.png)
-
基于群体:我们(大致)制作了一个现有单倍型库(haplotypes),并与我们不完整的单倍型进行比较
image.png
-
基于临近SNP填充
填充的典型输出衡量
准确度 = 真实基因型和推算基因型的相关性
一致性 = 正确调用的基因型的百分比 (%)(不好)
填充的典型输出衡量
![](https://img.haomeiwen.com/i24959989/23ac194186decfe6.png)
对没有基因型的动物填充
使用linear法填充(方法不理想)
Gengler et al. (2007)构想了一种代数方法来获得基于回归的基因型点估计。
后代的基因型 = 父母的一半 + 孟德尔抽样
![](https://img.haomeiwen.com/i24959989/68152b0e56aa5296.png)
![](https://img.haomeiwen.com/i24959989/e95f4122347bc2ff.png)
![](https://img.haomeiwen.com/i24959989/bbbc05720f311a76.png)
为啥线性填充不好?
![](https://img.haomeiwen.com/i24959989/f57c1b6b5d869562.png)
但它为 SSGBLUP 奠定了基础
基于Marker模型的基因组选择(GS)
-
单QTL
假设我们知道具体大效应的QTL(1个主要基因),如:
image.png
![](https://img.haomeiwen.com/i24959989/92214ed5d02a5048.png)
![](https://img.haomeiwen.com/i24959989/9ddf6629bcb7494b.png)
![](https://img.haomeiwen.com/i24959989/7bf2f6420b06b75d.png)
但是大多数性状的因果基因还不知道
-
整个基因组(多个marker)的基因组选择
Meuwissen et al. 2001提出直接使用marker。
image.png
image.png
基因组预测GP
![](https://img.haomeiwen.com/i24959989/5b1faaa15281817c.png)
基于系谱的预测:
![](https://img.haomeiwen.com/i24959989/25304e83ea4617ae.png)
基于基因组的预测
![](https://img.haomeiwen.com/i24959989/8c3e68c9f8311478.png)
例子:
![](https://img.haomeiwen.com/i24959989/795ae88eb60b750d.png)
从marker(SNP)效应到育种值
![](https://img.haomeiwen.com/i24959989/c114f8c9ef2f1c49.png)
一个详细例子:
![](https://img.haomeiwen.com/i24959989/2afe60db209d579d.png)
怎么估计marker效应呢?
如果通过LS(最小二乘法)估计:
![](https://img.haomeiwen.com/i24959989/210d41b61491af54.png)
但是LS估计时,会有很多缺点:
![](https://img.haomeiwen.com/i24959989/fbd94d0967918c6d.png)
使用最佳预测或者贝叶斯回归
贝叶斯回归:
![](https://img.haomeiwen.com/i24959989/52a35acdca7a3562.png)
这几种贝叶斯算法得到结果类似,所以算法不是很重要
缺点:
![](https://img.haomeiwen.com/i24959989/63b3d89420eb0be4.png)
经过10年的试验,marker的正态分布是一个较好的分布假设
![](https://img.haomeiwen.com/i24959989/c74f05769e16317b.png)
GBLUP和SNP-BLUP是等同的
SNP-BLUP的MME
![](https://img.haomeiwen.com/i24959989/fd81484a764516b2.png)
SNP-BLUP具有很强的灵活性:
![](https://img.haomeiwen.com/i24959989/f244e128769f9f6a.png)
Marker的编码
![](https://img.haomeiwen.com/i24959989/1daf00c14b189e0d.png)
![](https://img.haomeiwen.com/i24959989/a424ff2d7c9a96b7.png)
假设我们使用SNP-BLUP:
![](https://img.haomeiwen.com/i24959989/bc45a871459d37c3.png)
![](https://img.haomeiwen.com/i24959989/869906e1b0655695.png)
但是注意新的动物,必须采用相同的参考等位基因编码,否则就会出错
![](https://img.haomeiwen.com/i24959989/cbc8b1ec57c08a82.png)
编码的中心化:
![](https://img.haomeiwen.com/i24959989/09d0cb4c06d3c62b.png)
对新动物的GEBV 预测时,必须使用旧数据的中心化编码(旧频率)
![](https://img.haomeiwen.com/i24959989/a8a20a203785b236.png)
育种者应该怎么操作呢?注意IP
![](https://img.haomeiwen.com/i24959989/4fb692f3ef3b0521.png)
BLUPF90的应用(p*, 和 SNP效应存在SNP_pred文件中,用于IP)
注意SNP编码过程中,对于参考等位基因需要自己保持一致
![](https://img.haomeiwen.com/i24959989/056cbdd24946d69a.png)
SNP-BLUP中个体的理论可靠性
![](https://img.haomeiwen.com/i24959989/ba17d1dc7dabc4b8.png)
注意个体可靠性受到SNP编码的影响
![](https://img.haomeiwen.com/i24959989/3006abcc7384218e.png)
归一化(scaling)——不推荐使用
![](https://img.haomeiwen.com/i24959989/73c0966b525ea8ce.png)
![](https://img.haomeiwen.com/i24959989/a326b25c7ccfc8f7.png)
计算SNP的方差:
![](https://img.haomeiwen.com/i24959989/44eca181069b6e84.png)
另外方法:
![](https://img.haomeiwen.com/i24959989/2a8ff912ffe3b59b.png)
假设成功:
![](https://img.haomeiwen.com/i24959989/fb343a4af458aae2.png)
但是假设不成立(这就涉及到遗传力缺失):
![](https://img.haomeiwen.com/i24959989/0c4074b165821c18.png)
新的求解
![](https://img.haomeiwen.com/i24959989/cd69934aca30fe3e.png)
![](https://img.haomeiwen.com/i24959989/4145bfe06e20fe78.png)