Wang2018拓宽BLUP
Wang J, Zhou Z, Zhang Z, et al. Expanding the BLUP alphabet for genomic prediction adaptable to the genetic architectures of complex traits. Heredity, 2018, DOI: 10.1038/s41437-018-0075-0.
扩展BLUP字母表以进行基因组预测,适应复杂性状的遗传结构
摘要
统计方法的改进对于实现日益密集的遗传标记的潜力至关重要。贝叶斯方法将所有标记视为随机效应,在密集标记上表现出优势,并提供使用不同先验的灵活性。相比之下,基因组最佳线性无偏预测(gBLUP)在计算速度方面具有优势,但在极端复杂特征的预测精度方面仅具有优势。目前,BLUP方法中现有的多样性不足以适应具有不同遗传结构的新测序技术和性状。在这项研究中,我们发现了两种方法来改变BLUP方法中的亲属推导,提高预测精度,同时保持计算优势。首先,使用逐步排他性关系(SUPER)算法下的结算,我们用估计的数量性状核苷酸(QTN)替换所有可用的标记以得到亲缘关系。其次,我们基于亲属关系将个体压缩成组,然后将这些组用作随机效应而不是个体。这两种方法被命名为SUPER BLUP(sBLUP)和压缩BLUP(cBLUP)。对模拟数据和实际数据的分析表明,这两种方法为评估各种性状提供了灵活性,涵盖了拓宽的遗传结构领域。对于由少量基因控制的性状,sBLUP优于贝叶斯LASSO(最小绝对收缩和选择算子)。****对于具有低遗传力的性状,cBLUP优于gBLUP和贝叶斯LASSO方法。我们在R包,基因组关联和预测集成工具(GAPIT)中实现了这些新的BLUP字母系列方法,可从http://zzlab.net/GAPIT获得。
简介
基因组研究的最终目标之一是从基因型预测表型。这一系列研究被命名为基因组预测。人体中的基因组预测有可能导致更好的医学治疗。例如,如果可以在年轻时确定髋关节发育不良的风险增加,则可以预防残疾或需要进行髋关节置换手术(Kurtz等2007; Orthopedic Surgeons 2015)。基因组预测,也称为作物和牲畜的基因组选择,有可能通过消除早期潜力较小的个体来降低繁殖成本(Heffner等2011; Tempelman 2015; Wolc等2016; Yu等2016)。
揭示个人的遗传价值,使农业生产发生了革命性的变化。在过去的50年里,大多数作物和牲畜的生产力增加了一倍或三倍(VanRaden等,2009)。通过使用详细的基因组信息可以进一步利用个体的遗传价值(de los Campos et al 2010)。利用覆盖整个基因组的遗传标记,可以在非常早期阶段实现对复杂性状的遗传预测,即,一旦获得DNA样品(Wray等人2007; Guo等人2011)。在评估一头年轻的公牛时,DNA芯片上的信息 - 价格不到一百美元 - 可以节省数百个女儿的后代测试,并达到相同的预测准确度(Hayes等,2010)。
在使用遗传标记之前,使用固定和随机效应混合线性模型(MLM)将个体的遗传价值直接预测为最佳线性无偏预测(BLUP)。个体的总遗传效应被视为随机效应,其方差结构由基于谱系的亲缘关系定义(Henderson 1984)。这种方法在家畜遗传改良中发挥了最重要的作用(Hayes等,2009a)。已经开发了许多统计软件包来实现MLM,包括免费供公众使用的那些,例如多性状derivative free限制最大似然(MTDFREML)(Boldman等1993)。在20世纪90年代,出现了更多的遗传标记。 1994年,Rex Bernardo引入了覆盖整个玉米基因组的标记,以获得近交系中基于标记的亲缘关系,并进而对其遗传优点进行基因组预测(Bernardo 1994,1996)。
受20世纪后期开发的标记辅助选择(MAS)的启发,所有可用的遗传标记同时作为随机效应拟合,以避免MAS中的模型过拟合问题(Meuwissen等2001)。然后将所有标记物的作用相加在一起以估计个体的总遗传值。假设随机效应具有正态分布,其具有遵循某个先前分布的方差。贝叶斯方法用于随机标记效应的后验估计。当方差被强制相同并且平坦先验应用于其先前分布时,该模型等效于岭回归(RR)。通过不同的先验分布,开发了多种贝叶斯方法,如贝叶斯A,B,LASSO和C,创建了一系列分析选项,称为贝叶斯字母表(Zhang 2004; Lorenzana and Bernardo 2009; Endelman 2011; Colombani et al 2013)。其中,贝叶斯LASSO是常用的,因为LASSO算法的广泛应用(Park和Casella 2008)。
2007年,广泛使用的软件包(如MTDFREML)中基于血缘的血缘关系被基于标记的亲属关系取代(Zhang et al 2007)。不久之后,开发了一种计算效率高的算法来推导基于标记的亲缘关系(VanRaden 2008)。由于快速计算时间和与现有模型和软件相似的优点,这种基于标记的亲缘关系方法 - 众所周知的基因组BLUP或基因组最佳线性无偏预测(gBLUP) - 迅速成为基因组选择的实用方法(Hayes等,2009b)。此外,针对同时使用基于标记的亲属关系和基于谱系的亲属关系的情况开发了单步GBLUP(ssGBLUP)方法(Aguilar等人2010; Christensen和Lund,2010)。
类似于贝叶斯字母系列的开发,已经进行了许多努力以通过使用不同的亲属衍生算法来丰富BLUP方法。实际上,许多亲属算法是在引入gBLUP之前开发的。一类算法将亲属关系定义为基于遗传距离的遗传相似性,例如Nel的距离(Rousset 2000)。另一类直接计算亲属关系(Loiselle等1995; Ritland 1996)。还开发了专用软件包以从标记中获得亲缘关系,例如SPeGedi(Hardy和Vekemans 2002)。然而,最终,使用来自加权标记的亲缘关系发现了对gBLUP预测准确性的改进。该方法被命名为特质特异性关系矩阵(TA)BLUP(taBLUP)(Zhang等2011)。 taBLUP首先进行全基因组关联研究(GWAS),然后使用关联信号来加权标记。具有较强关联性的标记对亲属关系的贡献大于关联性较弱的标记。模拟证明taBLUP具有比gBLUP更高的准确度,但是对于由较少数量的数量性状核苷酸(QTN)控制的性状,仍然比贝叶斯方法(B)更低的准确度(Zhang等人2011)。
还进行了许多研究来比较贝叶斯方法和gBLUP之间的预测准确性。但是,两种方法之间的优势取决于评估的特定性状。例如,在使用奶牛数据的比较中,贝叶斯B(0.73)的准确度优于乳脂含量的gBLUP(0.64);然而,对于乳蛋白含量,gBLUP(0.60)优于贝叶斯B(0.55)。一般而言,贝叶斯B对于由较少数量的QTN控制的性状具有优于gBLUP的准确性优势;否则,gBLUP具有优势(Daetwyler等人2010)。尽管如此,考虑到gBLUP更高的计算效率,非常需要开发BLUP框架内的方法,其具有与用于具有各种遗传结构的性状的贝叶斯方法相似或更高的预测准确度。
除了基因数量之外,遗传力是遗传结构的另一个重要方面。贝叶斯方法和gBLUP都对遗传力敏感,对遗传力低的性状表现不佳。因此,迫切需要比贝叶斯方法和gBLUP更能容忍低遗传性的新方法。
为了满足这一需求,我们开始扩展BLUP字母表系列,目标是结合两个重要特征:(1)该系列保留了gBLUP的计算效率;(2)该系列适应各种特质遗传结构,以便预测准确度提高。因此,我们在BLUP框架中添加了两个新选项 - 一个选项用于由少量基因控制的性状,一个用于具有低遗传性的性状。