全基因组选择中交叉验证选择的策略

2019-04-03 本文已影响0人育种数据分析之放飞自我

全基因组选择中交叉验证选择的策略

Assessment of Cross-validation Strategies for Genomic Prediction in Cattle
M Erbe，ECG Pimentel，AR Sharifi，... - 2010 - 被引量: 8
react-text: 460 Developing models to integrate genome annotation, gene interaction networks, and other publicly available biological knowledge into genomic prediction of complex traits. /react-text react-text: 461 /react-text

介绍

交叉验证的主要目的，是估算预测的准确性。它的主要思路是将数据分为Traning（reference） Population 和Valiation（test）population，也称为训练群体和测试群体，

在基因组选择中，比较不同方法的好坏，主要是通过交叉验证进行比较的。

但是，分割数据（subdividing）会影响交叉验证的结果，因此，我们做了下面这个试验，考察不同比例的验证群体和训练群体，想要找到最优的组合。

材料和方法

数据包括2294头荷斯坦牛，使用50K的芯片，最小等位频率小于5%的淘汰。淘汰后共有39,557个SNP用于后续的分析，补全SNP使用PHASE软件。

GEBVs的预测方法

我们使用了GBLUP的方法，不直接估计每一个SNP的效应值，而是计算G矩阵，估计每个个体的育种值（GBLUP）。

在交叉验证的过程中，我们使用asreml软件估计每一步每一个重复的方差组分，然后预测育种值。

交叉验证的程序

数据分为训练群体（reference）和验证群体（validation set）

第一：100个个体作为验证群体，剩下的2194个个体作为训练群体
第二：在下一步，验证群体的个数依次增加100，训练群体的个数依次减少100，直到验证群体的数据达到1500个
第三：每一个步骤都计算GEBV

整个程序重复60次。

评价的标准

Pearson相关作为评价标准，它是计算真实值（realized）和预测值（predicted）的相关性值，在计算过程中，某一个步骤某一个重复如果没有收敛，则当做缺失值（NA）。

模型间的相关性值进行比较，看他们是否达到显著水平，这里为了方便比较，将两者的Person值差与0进行比较（即由独立T检验，变成了单样本T检验）。最后每个重复的P值计算一个平均值。

结果和讨论

图片.png

由图可以看出：

1，测试群体（验证群体）在100~600左右比较稳定，然后逐渐下降。
2，由于验证群体越小，训练群体就越大，大的训练群体估算的准确性也较高。

图片.png

图中显示的是两个模型的-log10(P)在不同验证群体下的分布，虚线为显著性，可以看到，验证群体在600以后达到显著性水平

结论

5个子集的交叉验证（five-fold），即使用20%作为验证群体，效果最好
验证群体大，会使得不同模型比较更容易显著，因此，如果是比较不同模型的显著性，验证群体可以适当大一点

全基因组选择中交叉验证选择的策略