遗传改良(育种)

Hayes2009 gs 奶牛 综述

2020-02-19  本文已影响0人  董八七

Hayes, B.J., Bowman, P.J., Chamberlain, A.J., and Goddard, M.E. 2009. Invited review: Genomic selection in dairy cattle: Progress and challenges. J Dairy Sci 92(2): 433–443. Elsevier. doi:10.3168/jds.2008-1646.

摘要

一项名为基因组选择的新技术正在彻底改变奶牛育种。基因组选择是指基于基因组育种值(GEBV)的选择决策。GEBV是指密集的遗传标记或这些标记的单倍型在整个基因组中的作用之和,从而有可能捕获导致性状变异的所有数量性状位点(QTL)。从单倍型或单个SNP标记推断的QTL效应,首先在具有表型信息的大参考群体中进行估计。在下一代中,计算GEBV只需要标记信息。用这种方法预测的GEBV的可靠性已经在美国、新西兰、澳大利亚和荷兰的实验中得到了评估。这些实验使用了650至4500代子代试验的荷斯坦黑白花公牛的参考群体,其基因型约为50000个全基因组标记。在参考群体中,未经子代检验的青年公牛的GEBV可靠性在20-67%之间。获得的可靠性取决于所评估性状的遗传力、参考群体中公牛的数量、用于估计参考群体中SNP效应的统计方法以及用于计算可靠性的方法。3个国家(美国、新西兰和澳大利亚)的一个共同发现是,一种直接的BLUP方法估计标记效应,使GEBV的可靠性几乎与更复杂的方法一样高。BLUP方法很有吸引力,因为所需的唯一先验信息是性状的加性遗传方差。所有国家在其GEBV计算中都包含了多基因效应(父母平均育种值)。该包涵体被推荐用于捕获与标记无关的任何遗传变异,并对标记无法捕获的低频QTL施加一定的选择压力。获得的GEBV的信度明显大于亲本平均育种值的信度,这是目前选择小牛进入后代试验队的标准。可靠性的提高足够高,至少有2家乳品育种公司在2岁时就已经在销售基于其GEBV的商业用公牛队。这一策略至少应该使乳制品行业的基因获得率翻一番。基因组选择及其实施方面的许多挑战仍然存在,包括提高GEBV的准确性,将基因组信息纳入国家和国际遗传评估,以及管理长期遗传增益。关键词:基因组选择,可靠性

导言

一项名为基因组选择的新技术正在彻底改变奶牛育种。尽管使用DNA标记来提高奶牛遗传增益率的想法已经存在了几十年(例如,Smith,1967;Soller和Beckman,1983),但直到最近,乳品业采用标记辅助选择的方法一直受到限制(有几个显著的例外,例如,Boichard等人,2002)。这有几个原因。对于许多数量性状,例如奶牛的生产和健康性状,大量的基因座正在影响该性状,任何一个基因座只捕获总遗传方差的有限比例【微效多基因】(例如,Shrimpton和Robertson,1988;Hayes和Goddard,2001;Sanna等人,2008,VanRaden等人,2009)。因此,在可用标记数量有限的情况下,获得相对较小的收益是可能的,并且对这些标记进行基因分型的成本很高。包括标记信息在内的育种值计算的复杂性是标记辅助选择应用的进一步障碍。
基因组选择革命从两个方面开始。第一个是最近对牛基因组的测序,这导致了数千个SNP形式的DNA标记的发现。在家畜基因组中发现大量SNP标记的同时,基因分型的成本显著降低。第二个进展是,证明当仅从密集的标记数据中预测育种值时,可以使用称为基因组选择的方法作出非常准确的选择决定(Meuwissen等人,2001)。基因组选择是指基于基因组育种值(GEBV)的选择决策。为了计算GEBV,首先推导了基于SNP的预测方程。整个基因组被分成若干小片段,这些片段的影响在一个参考群体中进行估计,在这个群体中,动物既有表型又有基因型。这样,即使单个基因座的影响非常小,也能捕捉到所有有助于遗传变异的基因座的影响。在随后的几代中,可以对动物进行基因分型,以确定它们携带的染色体片段,然后可以将动物携带的片段的估计效果汇总到整个基因组中,以预测GEBV。这种繁殖价值被称为GEBV。Meuwissen等人(2001)在模拟中证明,仅从标记上获得预测育种值的准确度为0.85是可能的(其中准确度是真实育种值与EBV之间的相关性,可靠性是该结果的平方)。
在动物出生时达到这种精确性的意义是深远的。仿真结果表明,经子代检验,GEBV对小牛的预测精度可以达到EBV的预测精度。通过在2岁而不是5岁或更晚的时候从公牛身上进行选择和繁殖,基因组选择可能导致遗传增益率加倍(Schaeffer,2006)。通过避免后代测试,公牛育种公司可以节省高达92%的成本(Schaeffer,2006)。然而,这些节省的一部分可能会被需要在基因分型上投入更多的资金来增加选择强度从而提高遗传增益率所抵消。
本文首先综述了基因组选择的研究进展,包括世界各地奶牛育种计划的结果。然后我们讨论如何将GEBV的精度提高到目前的水平之上。最后,我们研究了基因组选择对长期遗传增益的影响和其他挑战。

全球奶牛育种计划中GEBV的准确性

本文介绍了澳大利亚、新西兰和美国奶牛育种计划中基因组选择的结果,包括参考群体的集合、用于推导预测方程的方法和结果(如果有的话)。

澳大利亚的结果

由于新西兰和美国采用了类似的方法,因此本文对GEBV的计算作了一些详细的描述。利用Illumina牛SNP50TM基因芯片,对1998-2003年出生的798头澳大利亚荷斯坦-弗里西亚公牛及其后代进行了56947SNP基因分型。【样本和标记的筛选】对样本进行缺失基因型比例筛选,剔除缺失基因型比例大于10%的动物。只有满足以下标准时,才包括SNP:样本中缺失基因型的百分比<10%,最小等位基因频率>2.5%,观察基因型频率与从等位基因频率计算的预期频率的偏差(Hardy-Weinberg 卡方值)<600。选择这些标准是为了排除基因分型错误率高的snp,并从数据集中排除非常低频的snp,因为这种snp的影响将很难估计。【样本的2次筛选】进行亲子鉴定,剔除与系谱不相容的基因型。798头母猪中,共有730头的SNP基因分型率超过90%。共有38259个SNP符合所有SNP选择标准。
如果某些动物缺少某些标记的基因型,那么基因组选择方法的实施就更加困难。我们使用以下方法来估算缺失的基因型。利用Bovine Genome Build 4.0 (http://www.ncbi.nlm.nih.gov/projects/genome/guide/cow/)。然后将基因型按染色体提交给fastPHASE分析(Scheet和Stephens,2006)。缺失的基因型作为fastPHASE填写的基因型。我们通过对26号染色体上10%的动物每50个位置去除已知基因型来评估缺失基因型填充的准确性。然后将输入基因型与已知基因型进行比较,以评估该方法的准确性。fastPHASE程序共填写缺失基因3571个,正确率为98.7%,正确率为3525%。为了进行比较,一种以平均值为等位基因频率的二项分布抽样来填补缺失基因型的方法的准确率仅为51.1%。
【表型是去回归育种值】所用表型是从澳大利亚DHI计划(ADHIS数据库)中提取的澳大利亚育种值(ABV),包括蛋白质产量、蛋白质百分比、澳大利亚利润排名(APR)和澳大利亚选择指数(ASI)。育种值去回归是为了消除女儿以外亲属的贡献。
为了减少计算可处理性预测方程中要考虑的SNP的数量,【单标记模型】我们首先依次测试每个SNP对每个特性的影响。为此,我们拟合了模型:
y = \mu + Wg + Zu + e

u是育种值向量。挑出显著的snp进行2次拟合【同时拟合】。
采用两种方法导出预测方程。使用的第一种方法是简单的BLUP方法,如Meuwissen等人所述(2001年)。【所有snp效应值取样自同一个正态分布】此方法将所有SNP视为具有从相同正态分布采样的效应;换句话说,【为什么从同一个分布中来,方差要一样呢?假设!】假设所有SNP的效果非常小,并且所有i中的\sigma_{gi}^2相同。在这种情况下\sigma_{gi}^2=\sigma_{a}^2/2p_i(1-p_i),其中pi是SNP i的罕见等位基因频率【MAF】。我们还尝试了贝叶斯方法(BayesA),该方法利用了先前的知识,即许多SNP可能对性状有较小的个体影响,只有少数会有中等到较大的影响(例如,\sigma_{gi}^2在i中可能不同)。在这种情况下,使用吉布斯抽样法从其后验分布中提取\sigma_{gi}^2样本[见Meuwissen等人(2001)了解详情]。这种方法类似于Meuwissen等人(2001)的BayesA,但被修改为包含多基因效应,并且仅使用在P<0.05时显著的SNP亚群。对于某些性状,所有SNP均被纳入BayesA进行比较。
为了评估基因组选择的准确性,首先在1998年至2002年出生的公牛身上估计了SNP的影响。利用这些预测的SNP效应,我们预测了2003年出生的公牛的GEBV,即GEBV=\hat{u}+X\hat{g}。然后,这些GEBV与这些公牛的当前育种值相关,这些育种值主要来自后代试验。这给了r(GEBV,EBV),而我们想知道r(GEBV,TBV),其中TBV是真正的育种值。这可以通过r(GEBV,EBV)/r(EBV,TBV)【r(EBV, TBV)是怎么得来的?】来获得,例如,GEBV与当前育种值之间的相关性除以当前育种值可靠性的平方根。该结果的平方是表1中所示的育种值的可靠性,以及公牛犊牛出生时的父系途径EBV的可靠性。GEBV的准确度远远高于目前用于选择牛犊进行后代检测的父系途径EBV(表1)。
育性GEBV的信度显著低于其他性状的信度。这可能是因为生育率的遗传力较低,所以需要更多的记录来预测准确的GEBV【遗传力低,增加记录不能提高,但会提高准确性】。在这项研究中,与分析的其他性状相比,数据集中有育性记录的公牛(332头)更少,降低了分析的能力。
贝叶斯方法对除育性外的所有性状的信度都有小幅提高,增幅为2-7%。有趣的是,在Bayesian分析中拟合所有SNP,而不是预先选择的子集,并没有提高尝试该方法的性状的准确度,在某些情况下导致准确度略有下降【选择显著的是那snp集比用全部的要好】。

新西兰的结果

Harris等人(2008)通过家畜改良公司进行的一项实验,报告了新西兰奶牛中GEBV的可靠性。他们的参考群体由家畜改良股份公司测试的大约4500头公牛后代组成,比澳大利亚迄今为止的数据要大得多。对公牛进行了上述相同SNP集的基因分型。质量检查后,保留44146个SNP进行分析。为了推导预测方程,人们尝试了多种方法,包括BLUP、BayesA、BayesB(其中一些SNP可能具有零效应;Meuwissen等人,2001)、最小角度回归(Efron等人,2004)和贝叶斯回归(Xu,2003)。GEBV中含有一个基于系谱的多基因成分(加性育种值)。
GEBV的可靠性通过一组混合模型方程的直接反演来估计,平均关系矩阵由基于SNP数据的遗传关系矩阵代替(详情见Harris等人,2008)。用这种方法计算出的没有子代信息的年轻公牛的GEBV在产奶性状、活BW、肥力、SCC和寿命方面的可靠性在50%到67%之间,而在亲本平均育种值方面的平均可靠性为34%。这些信度通常比澳大利亚数据中的信度要高,澳大利亚数据可能反映了新西兰参考群体中更多的公牛,以及新西兰信度是预测而不是实现的事实。同样,贝叶斯方法给出的可靠性略高于BLUP方法(2%到3%),而回归方法表现不佳。

来自美国的结果

VanRaden等人(2009)报告了美国和加拿大青年公牛的GEBV可靠性。在澳大利亚和新西兰的实验中,由3576头荷斯坦公牛组成的参考群体用Illumina牛SNP50TM芯片对38416个SNP进行基因分型,并由此导出预测方程。预测方法包括一种类似于BLUP的方法[如Meuwissen等人(2001年)所述],该方法假定标记效应的正态分布,以及在考虑主要效应基因之前具有较重尾部的贝叶斯方法(类似于上文所述的BayesA)。在澳大利亚和新西兰对GEBV的计算中,通过选择指数将系谱的亲本平均或多基因效应与基因组预测相结合,得到最终的GEBV。
各性状的平均值,GEBV的信度为50%,而单亲平均值为27%。根据澳大利亚和新西兰的研究结果,使用BLUP而不是Bayesian方法只稍微降低了1%的可靠性。

荷兰的结果

De Roos(CRV,Arnhem,荷兰;personal communication)报道了由CRV(一家位于荷兰的乳品育种公司)进行的基因组选择实验的结果。他们的参考群体由1583头公牛组成,用含有57660个SNP的定制SNP芯片进行基因分型,其中46529个SNP用于后续分析。他们从参考人群中随机剔除1999年至2003年出生的429头公牛中的5%,计算出这些公牛的GEBV,然后将其与公牛的实际EBV(包括后代测试信息)相关联,从而计算出GEBV的准确性。重复20次,每头公牛退出一次,在其他19次中用作参考公牛。他们计算SNP效应的方法遵循Meuwissen和Goddard(2004)提出的Gibbs抽样方案,该方案是针对单个SNP而不是单倍型实施的(Calus等人,2008)。GEBV在出生时的可靠性比父母的平均EBV高33%(脂肪百分比),19%(蛋白质公斤数),15%(脚和腿),13%(乳房深度,SCS)和9%(生育率)。他们的结论是,在他们的参考群体中有更多的公牛,将大大提高GEBV在他们的选择候选人的可靠性。

结果比较

在所有4个国家中,GEBV的可靠性大大高于父母平均水平的育种值。在所有国家,乳牛育种公司都有可能利用GEBV来提高遗传获得率和降低其育种项目的成本。
美国和新西兰的数据比澳大利亚的数据更能反映这些国家在参考群体中使用的大量公牛,这是由于包含了基因组信息而增加的育种值可靠性。然而,不同国家的GEBV可靠度计算方法不同,使得直接比较困难【可靠性有多少种计算方法?】。
一个常见的发现是,BLUP方法,假设标记效应的正态分布,只比Bayesian方法稍差【在林木中不是这样,还是可性状的遗传力有关,遗传力越高说明大效应的位点越多,贝叶斯越有优势】,后者使用的是允许中到大效应基因的先验。从这一共同的结果可以得出结论,对于大多数乳制品性状,BLUP方法的假设,即存在许多小效应基因,很少或没有中到大效应基因,可能是接近现实的。另一种解释可能是SNP跟踪大的染色体片段,并且染色体片段的作用被许多SNP所分割。然而,有些个体的SNP具有很大的影响;例如,DGAT1基因中存在一个多态性,对脂肪百分比有很大的影响(Grisart等人2004年),这是由周围的SNP检测到的【澳大利亚数据,Van Raden等人(2008年)】。
在所有国家,利用选择指数理论,将来自系谱信息的亲本平均育种值与来自基因组信息的育种值相结合,计算出最终的GEBV。例如,组件可以通过其可靠性进行加权。使用这两种信息源的优点是,任何未被SNP效应捕获的QTL都可以被亲本平均值或多基因育种值捕获【将2部分结合的优点】。如下文所述,这对于在群体中以低频率捕获QTL可能特别重要。

提高基因组选择的准确性

上述GEBV的准确度令人印象深刻。然而,有可能进一步提高GEBV的准确性。GEBV的准确性取决于4个参数[例如,Goddard(2008);Hayes等人(2008)]。其中前两个由实验者控制;后2个则不:

  1. 标记与QTL之间的连锁不平衡水平,
  2. 在参考群体中具有表型和基因型的动物的数量,从中可以估计SNP效应,
  3. 有关性状的遗传力,或者,如果使用的是非遗传育种值,这些育种值的可靠性,以及
  4. QTL效应的分布。
    为了使基因组选择发挥作用,单个标记必须与QTL保持足够的LD,这样标记才能预测QTL在群体和世代中的作用【相反,如果LD衰减很快,且标记密度低,则预测效果就不好】。标记和QTL之间或标记之间的LD水平可以用参数r2来量化(Hill,1981)。如果我们考虑一个标记和一个(未观察到的)QTL之间的r2,r2是由标记解释的QTL上的等位基因引起的变异比例。为了使基因组选择与Meuwissen等人(2001)的模拟一样成功,其中GEBV的准确度达到0.85,相邻标记之间的LD水平应为r2 0.2,因为这是他们模拟产生的LD水平。必须注意的是,Meuwissen等人(2001年)在模拟中使用的是单倍型而不是单个标记,因此他们产生的LD水平可能大于在相同标记间距下单个标记所能达到的水平【单倍型和单个标记算出来的ld有什么区别?】(例如Goddard,1991年)。Calus等人(2008年)使用模拟评估了相邻标记对之间的平均r2对基因组选择准确性的影响(准确性是一组非表型动物的真实育种值和GEBV的相关性),方法是使用单个SNP而不是单倍型。他们发现,随着相邻标记间平均r2的增加,GEBV的准确度显著增加,从相邻标记间平均r2为0.1时的0.68增加到相邻标记间平均r2为0.2时的0.82。在澳大利亚荷斯坦牛的数据中,全基因组共有38259个SNP,用r2测量相邻标记间的平均LD为0.271。然而,相当多的对的r2值为零(图1)。
    然而,Calus等人(2008)和Meuwissen等人(2001)的结果表明,这种LD水平足以达到GEBV接近0.8的精度。为了达到比这更高的精度,需要更密集的标记【可行吗?】。
    基因组选择的准确性也将取决于用于估计SNP效应的表型记录的数量。可用的表型记录越多,每个SNP等位基因的观察就越多,基因组选择的准确性就越高。该性状的遗传力在这里也很重要;遗传力越大,需要的记录就越少。QTL效应的分布也很重要。如果像上述结果所表明的那样,有非常多的效应非常小的QTL导致性状的变异,那么需要大量的表型记录来准确估计这些效应。Goddard(2008)提出了一种确定性方法,用于计算在给定大小的参考种群和给定遗传力水平下估计预测方程时GEBV的准确性(图2)。假设QTL效应的正态分布[QTL效应的非正态分布结果,见Goddard(2008年)]。
    图2说明了两个关键点。对于低遗传力的性状,需要在参考群体中有大量的记录才能在非表型动物中获得较高的GEBV准确率。第二,图2显示了如果参考群体由后代测试的公牛组成的乳品业的幸运位置,在这种情况下,“表型”是具有高度遗传力的女儿平均值,其近似等于其可靠性。对于生育率等性状,这些子代平均数的可靠性低于生产性状,因此在参考群体中需要更多的公牛来达到相同的准确度水平。
    不同国家的GEBV准确度也证明了拥有大量参考人群的重要性。由于包含了基因组信息,美国和新西兰的数据比澳大利亚的数据更能反映出美国和新西兰参考群体中使用的公牛数量更多,从而提高了育种值的可靠性。

利用基因组选择优化育种方案设计

基因组选择可以预测幼年动物非常精确的繁殖价值。这些信息对优化育种方案设计将产生深远的影响。
在奶牛育种中,后代检测目前被用来鉴定具有高遗传价值的公牛。Schaeffer(2006)对后代试验方案作了很好的描述:“在后代试验方案中,每年都有一些优良的母牛被确定为幼公牛的母牛,这些母牛再与特定的公牛交配。在一岁大的时候,年轻的公牛被试配给人口中的大量奶牛,以便他们将有大约100个女儿与他们的第一个生产和其他性状的EBV。大约43个月后,从这些交配的女儿完成他们的第一次哺乳期和生产的年轻公牛EBV的准确性约为75%(可靠性为56%)。在这一点上,年轻的公牛已经被证实或重新服役了。”来自新西兰、美国和澳大利亚的实验结果表明,这种准确度的GEBV已经可以计算出公牛犊,至少对于某些性状来说是这样。如果每个国家的选择指数都达到了这样的准确度,那么可以在现阶段选择公牛犊牛,并在它们能够繁殖时立即使用,而不是在后代测试之后使用。这会将世代间隔减少至少一半。通过对优良母牛进行基因分型和选择较小数量的母牛与特定的父系交配,以及利用这些标记筛选出数量非常庞大的小牛,可以大大提高选择强度,从而进一步获得遗传增益。生理上,公牛能够从1岁开始繁殖,所以潜在的存在以进一步减少世代间隔。然而,在公牛达到2岁时广泛使用前,将1岁大的公牛与少量奶牛交配以检查先天缺陷,这是该技术在实践中得以实施的一种方式(Harris等人,2008年)。
上述描述只考虑了幼公牛的选择,而忽略了在母牛方面实施基因组选择【雌雄异体的生物都存在类似的情况】的好处。Schaeffer(2006)证明,通过对年轻公牛的潜在母牛进行基因分型,并在其GEBV上选择这些母牛,可以获得很大的遗传增益,这是因为选择母牛的准确性大大提高。事实上,Schaeffer(2006)的结论是,在GEBV上选择母牛获得的遗传增益可能大于在GEBV上选择公牛获得的遗传增益。
Schaeffer(2006)进一步指出,基因组选择的效果可能是将奶牛养殖业的结构转变为与家禽和猪养殖业相似的模式,公司在“内部”保留精英动物的核心。分散的核心或优先选择被认定为精英的奶牛是另一种选择。
基因组选择的另一个作用可能是在遗传增益的方向上实现更适当的平衡。目前在乳品行业,生产性状获得了很大的收益,而生育率的收益相对较小,部分原因是生育率EBV的准确性较低(同时也是因为生产和生育率之间存在着不好的相关性)。如果在最初的试验中有足够的记录来估计SNP效应,基因组选择可以提高育性EBV的准确性,从而使这一性状对整个育种目标有更大的贡献。然而,如果使用小的参考群体,选择生育率的准确性将仍然很低。
应仔细考虑基因组选择对近交的影响。如果育种计划中的世代间隔保持不变,利用系谱和表型信息,特别是低遗传力的性状,基因组选择实际上导致近亲繁殖率低于非marker-BLUP选择(Daetwyler等人,2007)。考虑挑选年轻的小牛成为后代测试团队的一员。在缺乏基因组信息的情况下,由于幼犊没有任何女儿,它们的繁殖价值被预测为其父系和母系繁殖价值的平均值。因此,两个全同胞获得相同的育种值,如果这个值足够高,他们都将被选为后代测试团队的一部分。如果基因组信息可用,则捕获孟德尔取样项(在配子形成过程中对父系和dam等位基因取样的结果)【基于系谱的亲缘关系是理论的】,并且2个全同胞获得不同的育种值,并且可能不能同时选择两个作为团队的一部分,这导致近亲繁殖率的降低【这一点很好,但个体模型给出的育种值不一定相等】。
然而,如果育种计划的世代间隔减半,以利用出生时可用的准确的GEBV,则由此产生的每年近亲繁殖的增加可能大于捕获孟德尔取样项的减少。考虑到基因分型的低成本,近亲繁殖有可能通过为公牛队筛选比过去多得多的候选品种来实现。然后可以努力限制任何一个父系对所选公牛的贡献,以便近亲繁殖可以保持在可接受的水平(例如,Wray和Goddard,1994)。还可以筛选潜在的公牛母牛,并通过系谱或标记的基因组关系来评估它们与潜在父牛的关系。
尽管这不在本综述的范围内,但考虑其他物种基因组选择的影响是有趣的。在猪、羊(肉和毛)和家禽产业中,基因组选择的一个主要影响可能是增加难以选择的性状的遗传增益。这将包括家禽的抗病性和猪的肉质等特性。基因组选择还可用于提高复合系的开发效率,这些复合系通常用于猪和羊的产业(Piyasatian等人,2006年)。品种间的杂交将显示出比品种种群内更高的LD水平。Piyasatian等人(2006年)证明,利用基因组选择捕获染色体片段,即使使用稀疏的标记图,也能从贡献品种获得最大的效果,从而提高复合系的遗传价值。

挑战

纳入国家评价

利用基因组信息提高育种值的准确性是如此之大,如果基因组信息不能较快地纳入国家育种值评估,这些国家评估可能不再是今后选择EBV的主要来源(Harris等人,2008)。从行业的角度来看,这是不可取的,因为整个行业的遗传增益率可能会受到影响。这种情况是否发生取决于国家评估机构调整其系统以包括基因组信息的速度。
结合系谱、表型和基因组信息在全行业范围内计算GEBV是一个相当大的挑战。一个主要的困难是,与数据库中的动物总数相比,基因分型的动物数量可能很小。如Goddard和Hayes(2007)所述,克服这一问题的最实用方法可能是首先从表型和系谱中计算传统的EBV,然后分别从标记中计算GEBV,然后使用选择指数将每只动物上的2个EBV组合成一个最终的GEBV供使用。这种方法是近似的,但可以很容易地实现。
第二种可能性是推断所有动物的所有标记基因型,并用它们计算GEBV(Goddard和Hayes,2007)。尽管这一策略带来了一些计算上的挑战,但这一选择还是很有吸引力的,因为它避免了因不同的标记板对不同的动物进行基因分型或根本没有对某些动物进行基因分型而产生的问题。如果QTL的数量很大,即使动物没有实际的基因型,而且所有的动物都有推断的基因型,根据系谱,推断的基因型在计算EBV时也会简单地取代系谱衍生的关系矩阵(Goddard和Hayes,2007)。为了实现这一策略,需要一种能有效推断大量动物基因型的方法。
正如Harris等人(2008年)指出的,将基因组信息纳入目前由Interbull计算的已证实父系间的国际比较将是一项非常具有挑战性的任务,因为国家之间和国家内部使用的SNP集不同,预测方程不同,以及存在标记Ч环境相互作用(例如,Lillehammer等人,2008)。

基因选择的长期遗传增益

Muir(2007)和Goddard(2008)都认为,由于模拟或确定性预测,基因组选择的长期收益可能低于表型选择或基于系谱和表型的长期收益。有两种解释【这2个问题很关键】:

  1. GEBV是基于对和QTL处于LD的SNP效应的预测,选择改变了LD在SNP和QTL之间的模式(Muir,2007)。如果LD是不完整的,固定标记但不会固定QTL,因此在标记固定后,一些QTL方差将不会被基因组选择捕获。基于表型或BLUP的选择不存在这个问题。
  2. 表型选择自动使用所有QTL,而基因组选择只使用已经“发现”或估计对目标性状有影响的标记(Goddard,2008)。特别是,在参考群体中可能无法检测到低频QTL。
    Muir(2007)和Goddard(2008)都提出了这个问题的解决方案。Muir(2007)建议在GEBV中包含一个多基因成分,以利用SNP未捕捉到的QTL的一些方差【怎么用?】。这一策略已经被澳大利亚、美国和新西兰应用基因组选择的努力所采用。
    哥达德(2008)提出了一种寻找长期选择响应最大化的最优指标的方法,该方法与吉普森(1994)建议的单一QTL和多基因组分有关。由此产生的指数将根据频率改变给予标记的权重,以便有利等位基因频率较低的标记在指数中获得更多权重。捕获低频QTL的另一种方法是使用标记单倍型而不是单个标记。由于SNP的发现方法和SNP序列选择的偏差,SNP序列上具有低等位基因频率的SNP是不常见的。这就造成了SNP等位基因频率和QTL等位基因频率的分布不匹配。这种不匹配导致了检测稀有QTL等位基因的能力低下。标记单倍型频率的分布更可能与QTL的分布相匹配,因此标记单倍型对低等位基因频率QTL的检测能力更强(Goddard,2008)。
    两位作者都主张不断地重新估计预测方程,这意味着不断地收集表型和基因型。这种策略将最大限度地从基因组选择的长期反应。该策略还具有其他优势,例如捕获低频QTL等位基因,并允许预测SNP在当前记录的性状和测量的新性状之间的多效性效应。

LD中SNP与QTL及SNP跟踪关系的分离

尽管密集的SNP标记是检测和准确定位QTL的有用工具,但它们在捕获和描述遗传关系方面也做得非常好(Habier等人,2007)。这些关系可以是在品种、父系或复杂系谱的水平上(Pritchard等人,2000;Hayes和Goddard,2008)。除非这些关系在用于预测参考群体中SNP效应的模型中特别说明,一些SNP将被归因于效应值,不是因为它们与QTL在LD中,而是因为它们解释了参考群体中的部分遗传关系。这是不可取的,因为只有与QTL在LD中的SNP的效应值才持续在整个群体和各代之间。
Habier等人(2007年)证明,不同世代的GEBV在精度持续性方面存在显著差异,根据这种差异,可以使用方法推导预测方程。例如,他们发现,如果不定期重新评估SNP效应,BLUP预测SNP效应时,GEBV的准确度跨代迅速衰减,而使用贝叶斯方法导出预测方程时,GEBV的准确度衰减得更慢。BLUP方法特别容易将效应分配给SNP,而不是因为它们与QTL在LD中。这很容易理解,当我们意识到,在假设QTL效应正态分布的情况下,用BLUP进行基因组选择,完全等同于用正常BLUP方程估计育种值,用SNP数据导出的基因组关系矩阵替换系谱关系矩阵(Goddard,2008)。
该问题的明显解决方案是通过在估计SNP效应的模型中拟合多基因效应来消除关系的影响,其中多基因效应具有由平均关系矩阵给出的方差-协方差结构。另一种可能性是在参考群体中使用多个品种,因为在这种情况下,SNP必须非常接近QTL,SNP才能在多个品种之间产生影响,因此不太可能建立关系(De Roos等人,2008年;前提是模型中的品种效应是合适的)。最后,如Muir(2007)所证明的,如果参考种群由多代动物组成,而不是由一代动物组成,那么GEBV的准确性将持续更长的世代

品种间的基因组选择【跨品种、跨家系】

Harris等人(2008年)报告说,根据荷斯坦-弗里西亚参考群体计算出的SNP估计值并不能在泽西公牛中产生准确的GEBV,反之亦然。当用一个品种的SNP效应计算另一个品种的GEBV时,相关系数从-0.1到0.3不等基因组选择依赖于标记和QTL之间LD的phase,在选择候选群体中与参考群体中相同。然而,随着两个群体的分化,这种情况的可能性越来越小,尤其是当标记与QTL之间的距离相对较大时。Harris等人(2008)的跨品种结果的一个解释是,SNP与一个品种内的QTL在LD中,但这种关系在一个品种内不成立。De Roos等人(2008)分析了几种牛肉和乳制品品种内部和之间的LD程度,并得出结论,对于像荷斯坦牛和泽西牛这样不同的品种,至少需要300000个SNP,以便发现跨品种工作的标记。当预测方程将用于多个品种时,参考种群的最佳组成是一个需要进一步研究的领域,但早期迹象表明,如果参考种群至少包括来自所有目标品种的一些个体,则这些品种中的GEBV的准确性将大大提高(De Roos et2008年;Harris等人,2008年)。
上述讨论确实假设QTL等位基因在不同品种和群体中的作用是相似的。对于一些已经被追踪到已知突变的QTL,等位基因在不同的品种和群体中的作用是相当相似的。例如,DGAT1基因的A等位基因导致新西兰荷斯坦-弗里西亚人、运动衫和艾希里人的脂肪产量增加,蛋白质产量和奶量减少(Spelman等人,2002年)。尽管荷斯坦-弗里西亚和泽西品种的效应大小与蛋白质和奶量一致,荷斯坦-弗里西亚品种的脂肪反应大小几乎是球衣的两倍(Spelman等人,2002)。另一个问题是,我们假设影响生产性状的相同突变在不同的品种中是多态的。这对于一些特征良好的突变来说是正确的,例如DGAT1中的K232A突变,它在荷斯坦、运动衫和芳基衬衫中是多态的(Spelman等人,2002)。其他的突变,比如肌肉抑制素基因的一些功能突变,似乎是种特异性的(Dunner等人,2003)。一种解决方案是使用多品种参考群体,以便捕获所有遗传变异。当从另一个群体的动物中估计染色体片段效应时,基因型与环境的相互作用也可能降低预测GEBV的准确性

非加效应

虽然GEBV作为选择标准的定义应该只包括加性效应(遗传优点是从一代传给下一代),但在某些情况下,可能需要预测表型,例如,将奶牛分配到不同的管理方案。在这种情况下,根据这些效应解释的总遗传方差的比例,包括显性效应和上位效应,可以潜在地提高预测表型的准确性。Xu和Jia(2007)扩展了与上述方法类似的单标记贝叶斯方法来解释显性和上位性效应,并证明在模拟数据中这些效应可以以合理的精度进行估计。Gianola等人(2006)提出了基因组选择的半参数程序,这使得他们能够估计潜在的几十万个标记之间的相互作用

结论与启示

基因组选择似乎将成为过去20年来为乳品业带来最大增长率的技术。全世界至少有4个乳品育种项目正在进行基因组选择。对于没有子代记录的公牛犊牛,GEBV比EBV的可靠性增加令人印象深刻,从2%到20%。GEBV可靠性的提高正被公牛育种公司用在两个方面。在某些情况下,更多的牛犊正在被筛选,以选择更少的牛犊进行后代检测,这降低了育种计划的成本,并导致一些额外的遗传增益。其他公司则是年轻公牛的营销团队,只要它们能够繁殖,就只基于它们的GEBV,这应该会导致遗传增益的大幅增加,因为它们缩短了生育间隔。
在实施基因组选择方面仍然存在相当大的挑战和机遇,包括适应国家遗传评估,以包括基因组信息、跨品种基因组选择、管理长期收益和近交与基因组选择,以及计算挑战(例如,Legarra和Misztal,2008;Tsuruta和Misztal,2008年)。这些都是值得进一步研究的令人兴奋的课题。

上一篇下一篇

猜你喜欢

热点阅读