Vandenplas2018 探讨算法的,看不懂
Vandenplas J, Eding H, Calus MPL, et al. Deflated preconditioned conjugate gradient method for solving single-step BLUP models efficiently. Genetics Selection Evolution, 2018, 50(1): 51. DOI: 10.1186/s12711-018-0429-3.
用于有效求解单步BLUP模型的紧缩预条件共轭梯度法
摘要
背景
单步单核苷酸多态性最佳线性无偏预测(ssSNPBLUP)方法,如单步基因组BLUP(ssGBLUP),同时分析基因型和非基因型动物的表型、谱系和基因组信息。与ssGBLUP相比,SNP效应在ssSNPBLUP模型中明确地作为随机效应拟合。类似地,与基因组信息相关的主要成分可以明确地拟合为单步主成分BLUP(ssPCBLUP)模型中的随机效应,以去除基因组信息中的噪声。通过使用预处理的共轭梯度(PCG)方法有效地解决单步基因组BLUP。不幸的是,在使用PCG解决ssSNPBLUP时,已经报告了收敛问题。收敛性差可能与ssSNPBLUP的预处理系数矩阵的差谱条件数有关。通过紧缩的PCG(DPCG)方法可以改善这些条件数,从而收敛,这是用于病态线性系统的两级PCG方法。因此,本研究的第一个目的是比较ssGBLUP和ssSNPBLUP的预处理系数矩阵的性质,并记录用PCG方法获得的收敛模式。第二个目标是实现和测试用于解决ssSNPBLUP和ssPCBLUP的DPCG方法的效率。本研究的
- 第一个目的是比较ssGBLUP和ssSNPBLUP的预处理系数矩阵的性质,并记录用PCG方法获得的收敛模式。
- 第二个目标是实现和测试用于解决ssSNPBLUP和ssPCBLUP的DPCG方法的效率。
结果
对于两个奶牛数据集,使用PCG方法求解的ssSNPBLUP(ssPCBLUP)和ssGBLUP的最小特征值是相似的。然而,为ssSNPBLUP和ssPCBLUP获得的最大特征值大于ssGBLUP的特征值,这导致较大的条件数和由PCG方法解决的两个系统的慢收敛。DPCG方法的不同实现通过缩小最大的不利特征值导致较小的条件数,并且ssSNPBLUP和ssPCBLUP的收敛更快。
结论
当通过PCG方法求解时ssSNPBLUP和ssPCBLUP的不良收敛与较大的特征值和较大的条件数相关,与ssGBLUP相比较。利用DPCG方法解决了这些收敛问题,该方法消除了ssSNPBLUP和ssPCBLUP的预处理系数矩阵的最大不利特征值对PCG方法收敛的影响。它产生了一种收敛模式,至少类似于ssGBLUP。
前言
通常,用于家畜动物的基因组数据包括几千个单核苷酸多态性(SNP),其在遗传评估用于获得基因组估计育种值[ 1,2,3 ]。目前,同时将基因型和非基因型动物的表型和谱系信息与基因型动物的基因组信息相结合的选择方法是所谓的单步基因组最佳线性无偏预测(ssGBLUP)[ 3 ]。ssGBLUP包括由基因组和系谱关系组合成组合的基因组谱系关系矩阵[基因组信息3,4,5]。然而,ssGBLUP的一个主要不便之处在于需要密集基因组关系矩阵()的逆,这可以在当前计算机上计算到大约100,000个基因分型动物[ 6 ]。因此,提出了一些方法来近似的逆,例如algorithm for proven and young animals (APY)[ 6 ],或基于奇异值分解(SVD)隐式计算其逆[ 7 ]或对伍德伯里分解[ 8 ]。另一种避免计算的逆,甚至G本身,是直接拟合SNP效应,或从基因型矩阵的SVD获得的主要成分,作为模型中的随机效应。几个等效模型中,使基因分型的和非基因分型的动物的同时建模作为ssGBLUP [文献提出了2,7,9,10,11,12,13 ]。等效模型直接估计SNP的效果随机效应[ 2,9,10,11,12,13以下将称为单步SNPBLUP(ssSNPBLUP)。有人提出,通过对SNP基因型的主成分(PC)进行随机回归可以大大减少基于SNP的模型的维数,并且可以忽略基因组信息的剩余噪声[ 14 ]。据我们所知,单步主成分BLUP(ssPCBLUP)的线性方程组从未用大数据集的PCG方法求解。
ssGBLUP,ssSNPBLUP和ssPCBLUP模型具有线性方程组,具有稀疏和对称正(半)定(SPSD)系数矩阵。因此,预条件共轭梯度(PCG)方法是主要的选择作为用于解决ssGBLUP,ssSNPBLUP [线性系统迭代求解器11,15,16,17 ],和ssPCBLUP的。PCG方法属于共轭梯度(CG)方法的家族,其是在Krylov子空间上实现正交投影技术,其由初始残差和系统矩阵(例如,预处理系数矩阵)生成。应用CG方法[ 17]。CG方法的收敛速度受系统矩阵的谱条件数的限制,系统矩阵的谱条件数是系统矩阵的最大和最小特征值之间的比率[ 17 ]。与CG方法相比,预处理确保了PCG方法的更快收敛。不幸的是,相比于ssGBLUP,适用于ssSNPBLUP与PCG法收敛的问题已经报道了11,18 ],我们也经历了我们的初步分析。此外,我们在初始分析中遇到了与ssPCBLUP类似的收敛问题。
Taskinen等[ 11 ]表明收敛问题可能是由于ssSNPBLUP的系统矩阵的谱条件数较差。因此,为了实现更快的收敛,需要改进该谱条件数,并且可以通过已经为病态线性方程组开发的方法来获得。一种这样的方法是紧缩PCG方法,其是用于病态线性系统[两级PCG方法19,20,21 ]。该方法DPCG导致良好的性能在其他情况下比遗传评估[ 22,23,24并且拥有有趣的属性,例如在基于PCG方法的当前软件中相对容易实现以及其对并行计算的有利特性[ 22 ]。据我们所知,DPCG方法从未应用于线性混合模型,无论是用于遗传评估还是其他目的。因此,本研究的第一个目的是比较Mantysaari和Stranden [ 13 ] 提出的ssSNPBLUP模型的ssGBLUP系统矩阵的性质,并将其与用PCG方法得到的观察到的收敛模式联系起来。我们的第二个目标是实施DPCG方法并测试其在大型遗传评估模型中解决ssSNPBLUP的可行性,并将其重新参数化为ssPCBLUP模型。