LR对GS验证
LR方法全称为 linear regression method of validation,是由 Legarra and Reverter, 2018提出。其代表为真实准确性,针对种群介绍得出。以前我们以PEV计算的为理论准确性(可以准对每个个体):
理论准确性(注意:考虑了近交系数Fj):

这里主要讲LR
LR方法全称为 linear regression method of validation,是由 Legarra and Reverter, 2018提出。
对于确定的验证集,使用两个数据集-具有全部表型数据(w),移除验证集表型的数据集(p)。分别进行ssGBLUP分析,得到的GEBV分别为uw,up.注意这里考虑的近交系数,所以让原来的式子中:F≈f
原文:

计算预测准确为:

注意这里的F,为验证集的近交系数平均值。
查看bias (截距) and inflation或Dispersion(膨胀系数)
在R中使用(code):
reg1 =lm(uw ~ up)
summary(reg1)
或者:
偏差求法(注意这里使用不完整数据的均值 - 完整数据的均值):

Dispersion(注意分母):

如果bias (截距)为0,则说明预测没有偏差,大于0,说明在不完整数据中对验证群体高估了。
Dispersion(系数)表示验证集中育种值分散程度的指标,如果小于1,说明在不完整数据中对验证群体高估了。
相关性和相对准确性增加
相关性:
直接求uw,up的相关性,表示作为 2 次后续评估之间稳定性的衡量标准; 更大的相关性意味着评估与添加新数据更一致
相关性也可以表示为相对准确性增加:

是来自:

准确性(accuracies)
准确性具有两个:相对准确性和绝对准确性
1 相对准确性:

或者简化为:

其相等于,也称为准确性的比值:

这里也导出了上述的相对准确性增加
2 绝对准确性

这是可靠性的比:

使用的实例文章
Validation of single-step GBLUP genomic predictions from threshold models using the linear regression method: An application in chicken mortality. 2020. 增加了表型或基因型数据后,考虑增益的新指标。
提出LR的文章
Legarra and Reverter, 2018提出
背景
交叉验证工具越来越多地用于验证和比较遗传评估方法,但很少描述交叉验证方法的分析特性。还缺乏针对复杂问题的交叉验证工具,例如预测间接影响(例如母体影响)或后代群体规模较小的育种计划。
结果
作者通过比较包括“部分”和“整体”数据在内的遗传评估得出几个二次形式的预期值。
作者提出了基于均值、协方差和相关性差异来比较遗传评估的统计数据,包括“部分”和“整体”数据,并将这些统计数据的使用称为“方法 LR”(来自线性回归)。
与普遍看法相反,由于家庭结构,对于小型或相关验证集,估计育种值的 true 回归(按预期)低于 1。
对于足够大的验证集,作者表明这些统计数据会产生偏差、斜率或离散度的估计值,以及估计育种值的种群准确性。
类似的结果适用于对未来表型的预测,尽管作者表明对偏差的估计,使用未来表型预测的斜率或离散度对不正确的遗传力或固定效应的预校正很敏感。
作者为一组 2111 头婆罗门肉牛提供了一个示例,在将数据重复划分为训练集和验证集时,LR 方法的统计数据与未来表型的预测非常吻合。
结论
介绍了交叉验证措施的分析特性。作者提出了一种名为 LR 的新方法,用于交叉验证,该方法是自动的、易于使用的,并且可以产生感兴趣的数量。
该方法比较基于部分和全部数据的预测,从而得出准确度和偏差的估计值。由于预校正或使用不正确的遗传力,对观察到的记录的预测可能会产生有偏差的结果。
针对单一算法,原作者的所有参数计算过程:

针对比较PBLUP 到GBLUP或SSBLUP的变化, 其计算过程为:

参数的意义
选择方案的遗传进展取决于使用正确的遗传评估模型。 模型是现实的简化,永远不会完全完美,这就是为什么需要分析系统误差的工具的原因。
在遗传评估中需要检查三个重要方面:偏差(bias)、分散(Dispersion)和准确性(accuracy)。
1 偏差 (b0=u¯−u¯)uu 并且可能导致对遗传趋势的高估或低估以及糟糕的选择决策(例如,选择过多的年轻个体而不是保留老个体)。
2 TBV 对 EBV 的回归斜率值小于 1 意味着 EBV 过度分散,并可能导致高估预选候选人的遗传价值。
3 准确度的无偏估计(TBV 和 EBV 之间的相关性)对于正确预测对选择的反应很重要。
比较具有基因型数据和系谱数据
有两种方法:
