47- 基因组预测的基础(1)
此部分所有内容来自法国INRA的A. Legarra授课。
GP的发展历史

marker
raw files(不喜欢的格式,需要转换):

可以转为每个动物占1行:


另一种(A与B格式):

map 文件:

A/C的从编码(数字)

也可以是A为参考:


BLUPF90格式:

怎么操作SNP文件:


如果想要合并多个SNP文件,需要知道SNP名字和每个位点参考的值

质控
-
call rate:
image.png
-
等位基因频率
image.png

-
最小等位基因频率MAF
image.png
为啥MAF这么重要?
image.png
-
哈代温伯格平衡HWE
image.png
杂交后代不会有HWE
通常因为XY不对称,不会使用性染色体
在GP中使用性染色体更加复杂(美国的奶牛使用),需要查看:

- 孟德尔冲突
image.png
如果一个SNP有太多的孟德尔冲突,则可能检测错误,需要删去这个SNP
如果一个个体有太多的孟德尔冲突,则动物的ID出错或者在系谱出现错误
可以使用Seekparent.f90软件查找其父母 - 重复基因型
如果不是克隆,这应该是标记错误造成的 - 连锁不平衡LD:两个位点的非随机组合
image.png
跨品种预测很难实现,因为LD的差别会大一些。
测量LD:r2
image.png
基因内容(GC)的特性

均值和方差:

数据质控前后的不同

preGSf90处理小于5000个个体数据(基因型); qcf90处理更大的数据
填充缺失的SNP
为啥呢?
- 有的软件不能使用缺失值
- 使用廉价的芯片(可以往高密度进行填充)
填充策略
- 基于家庭:我们比较从父母传给后代的染色体块并填补空缺
例子:


-
基于群体:我们(大致)制作了一个现有单倍型库(haplotypes),并与我们不完整的单倍型进行比较
image.png
-
基于临近SNP填充
填充的典型输出衡量
准确度 = 真实基因型和推算基因型的相关性
一致性 = 正确调用的基因型的百分比 (%)(不好)
填充的典型输出衡量

对没有基因型的动物填充
使用linear法填充(方法不理想)
Gengler et al. (2007)构想了一种代数方法来获得基于回归的基因型点估计。
后代的基因型 = 父母的一半 + 孟德尔抽样



为啥线性填充不好?

但它为 SSGBLUP 奠定了基础
基于Marker模型的基因组选择(GS)
-
单QTL
假设我们知道具体大效应的QTL(1个主要基因),如:
image.png



但是大多数性状的因果基因还不知道
-
整个基因组(多个marker)的基因组选择
Meuwissen et al. 2001提出直接使用marker。
image.png
image.png
基因组预测GP

基于系谱的预测:

基于基因组的预测

例子:

从marker(SNP)效应到育种值

一个详细例子:

怎么估计marker效应呢?
如果通过LS(最小二乘法)估计:

但是LS估计时,会有很多缺点:

使用最佳预测或者贝叶斯回归
贝叶斯回归:

这几种贝叶斯算法得到结果类似,所以算法不是很重要
缺点:

经过10年的试验,marker的正态分布是一个较好的分布假设

GBLUP和SNP-BLUP是等同的
SNP-BLUP的MME

SNP-BLUP具有很强的灵活性:

Marker的编码


假设我们使用SNP-BLUP:


但是注意新的动物,必须采用相同的参考等位基因编码,否则就会出错

编码的中心化:

对新动物的GEBV 预测时,必须使用旧数据的中心化编码(旧频率)

育种者应该怎么操作呢?注意IP

BLUPF90的应用(p*, 和 SNP效应存在SNP_pred文件中,用于IP)
注意SNP编码过程中,对于参考等位基因需要自己保持一致

SNP-BLUP中个体的理论可靠性

注意个体可靠性受到SNP编码的影响

归一化(scaling)——不推荐使用


计算SNP的方差:

另外方法:

假设成功:

但是假设不成立(这就涉及到遗传力缺失):

新的求解

