Thrasher2018 SNP与SSR的在系谱重建上的优劣
Thrasher DJ, Butcher BG, Campagna L, et al (2018) Double-digest RAD sequencing outperforms microsatellite loci at assigning paternity and estimating relatedness: A proof of concept in a highly promiscuous bird. Mol Ecol Resour 18:953–965. doi: 10.1111/1755-0998.12771
双消化RAD序列在确定亲子关系和估计相关性方面优于微卫星位点:高度混杂鸟类概念的证明
关于个体间遗传关系的信息对于许多研究野生生物的行为和生态学是必不可少的。基于大量单核苷酸多态性(SNP)位点的亲子关系和相关性分析与传统用于这些目的的微卫星标记相比具有显著优势。我们提出了一个双消化限制位点相关的DNA测序(ddradseq)分析管道,同时实现了单核苷酸多态性的发现和基因分型步骤,并且优化了哪一个以返回一组统计上强大的单核苷酸多态性标记(通常为150?00,经过严格的筛选),来自大量个人(每次运行最多240人)。我们通过对一个复杂社会系统的物种,即杂色的仙女鹪鹩(Malurus lamberti)的一系列实验来探索这种方法中固有的权衡,并进一步验证它在其他鸟类系统学上的广泛性。通过与一组由高度可变的微卫星标记组成的强大面板的并行数据集进行直接比较,我们发现这种ddrad-seq方法大大提高了区分潜在亲缘关系的能力,并大大提高了相关系数的精确估计。该管道的设计是为了普遍适用于所有鸟类物种(并对许多其他类群进行了细微的修改),具有成本效益和时间效益,并且可以跨独立运行进行复制,以便在收集野外样本时,可以组合和分析来自不同研究时期的基因型数据。
关键词:合作育种;双消化限制位点相关DNA测序;微卫星;亲本;亲缘关系;单核苷酸多态性
1引言
过去几十年中分子技术的进步通过提供关于个体间遗传关系的可靠信息,大大提高了我们测试动物社会行为问题的能力(Avise、Jones、Walker和Dewoody,2002;Griffith、Owens和Thuman,2002;Hughes,1998;Myers和Zamudio,2004;SolomonKeane和Knoch,2004年;Westneat、Sherman和Morton,1990年)。自20世纪90年代以来,微卫星一直是这种应用的分子“选择工具”,因为微卫星位点往往具有高度多态性,在一个基因座上有多达几十个共分离等位基因(Guijoux等人,2011;Li、Korol、Fahima、Beiles和Nevo,2002;Queller、Strassmann和Hughes,1993;Selkoe和Toonen,2006)。因此,少量高度可变的微卫星位点可以为辨别个体间的遗传关系提供相当大的力量(Bloin,2003;Queller等人,1993;Webster&Reichart,2005)。然而,微卫星分析也有一些实际的缺点。为一个物种开发的微卫星实验室协议通常不适用于其他物种【那么你的SNP怎么重复呢?】,因为引物可能不会很好地扩增,而且目标基因座往往不具有多态性,特别是在较远相关的分类群中(Decroocq、Fave、Hagen、Bordenave和Decroocq,2003年;Galbusera,2000年;HedgeCock、Li、Hubert和Bucklin,2004年);Primmer,画家,Koskinen,Palo和Merila,2005年)。下一代测序已经使单个物种的微卫星位点的发现更容易实现(Davey等人,2011年)。然而,发现微卫星位点是非常耗时和昂贵的,这主要是由于在初始测序后对候选引物进行了长期的测试和优化。此外,传统的基于PCR的微卫星分析也需要大量的财政和实验室工作时间投资。微卫星等位基因的手工评分也需要大量的研究时间,并且可能涉及由等位基因引起的各种形式的错误,这些等位基因具有一个以上明确定义的峰、等位基因退出和无效等位基因问题,以及任何复杂工作流程中固有的各种人为错误来源(HedgeCock等人,2004;HoffmaN&Amos,2005;Kalinowski、Taper和Marshall,2007;Pemberton、Slate、Bancroft和Barrett,1995)。
限制性位点相关DNA测序(rad-seq)是一种被广泛应用于分子遗传学研究的低代表性基因组技术(Davey&Blaxter,2010;Etter,Bassham,Hohenlohe,Johnson,&Cresko,2012;Puritz等人,2014),尤其是对于连锁和定量性状位点(qtl)定位(Baird等人,2008),全基因组测序(genomewide asso,2010;Etter,Bassham,Hohenlohe,Johnson,&Cresko,2012;Puritz等人,2014)。关联研究(Davey等人,2011年)和系统地理学(Andrews、Good、Miller、Luikart和Hohenlohe,2016年)。rad-seq使用限制性酶对基因组的一部分进行片断化和取样;由于它识别的单核苷酸多态性没有基因组的先验知识,它提供了一种更普遍的单核苷酸多态性发现方法(willy,Hoffmann,Klein,Weigel,&Dreyer,2011)。双消化限制位点相关DNA测序(ddrad-seq)是一种RAD-seq协议,允许通过尺寸选择步骤选择更小的基因组部分,从而使更多个体(Kess、Gross、Harper和Boulding,2016;Peterson、Weber、Kay,Fisher和Hoekstra,2012年;Puritz等人,2014年)。这种能力与不需要事先了解基因组的事实相一致,使得ddrad-seq成为一种同时发现和筛选单核苷酸多态性的有吸引力的方法,用于识别个体之间的遗传关系。
在这里,我们描述了一种基于ddrad的方法来同时发现和筛选大量的snp基因座,该基因座具有很高的功率,用于测试关于亲子关系和相关性的问题。这些方案经过优化,可为每次运行240个个体生成一组适当的、可靠的SNP标记,可跨运行重复,以允许在不同时间生成的SNP数据集的组合,并且在不需要特定物种标记的情况下,普遍适用于鸟类(以及对其他有机体的小修改)。ER发现步骤。我们通过在高度混乱和社会复杂的杂色精灵鹪鹩(Malurus lamberti)中进行基于SNP的亲子关系研究来验证这些方法。我们将这些结果与之前生成的亲子关系分配和相关信息进行了比较,这些信息是基于同一只小精灵鹪鹩个体和社会群体的微卫星屏幕得出的。为了说明这一方法的广泛应用,我们报告了为亲子关系的等效研究所恢复的基因座数量,包括不同数量的个体(从少于10个到近500个)的其他物种,这些物种共同跨越了许多活鸟的系统发育多样性。
2.5亲子关系分析
我们使用CERVUS 3.0.7版(Kalinowski等人,2007年)分别使用我们的微卫星和SNP数据集为所有的雏鸟分配亲子关系。CERVUS使用一种基于可能性的两步方法来分配亲子关系。首先,cervus将每个后代的基因型与候选亲本和群体中随机个体的基因型进行比较,以计算一个似然比。这种关系表示为一个LOD分数,它只是计算的似然比的自然对数。阳性LOD分数表明候选父母更可能是真正的父母,而阴性LOD分数则表明候选父母极不可能是真正的父母。其次,CERVUS根据群体等位基因频率和潜在父母在分析中所占的比例,对父母年龄进行了模拟分析。模拟说明了未完成的父代、丢失的数据和基因分型错误的可能性。考虑到这些参数,模拟通过比较最可能的父级和所有其他候选父级的LOD分布来计算临界LOD分数。临界LOD评分用于确定每个父母分配的置信度(95%或80%)。
CERVUS允许不同类型的父母分析,包括父母对(性别已知或未知)、生育(已知父亲,但不是母亲)和亲子关系(已知母亲,但不是父亲)。桑森维尔湖上各种各样的仙女鹪鹩相对来说比较容易观察到,而且我们能够在行为上指定已知的母亲。随后,我们通过微卫星分析证实了这一点:在整个孵化过程中建造和照料巢穴的雌性始终是该巢穴中雏鸟的母亲。在许多系统中,人口统计学知识的可比水平可能不可用,因此一个标记集必须足够强大,能够以最少的社会信息指定父母。为了研究我们的ddrad-seq方法的更广泛的实用性,我们进行了依赖于已知母亲的包含的分析,此外,还进行了独立于已知母亲的分析,这些分析仅基于父亲的ffspring关系。我们模拟了10000个后代的亲子关系分配,以确定关键的LOD分数,对每个小组使用稍微不同的输入参数(微卫星和DDRAD测序衍生的单核苷酸多态性)。两种方法的模拟都使用了以下参数:78个候选雄鼠,95%的候选雄鼠被取样,估计错误类型的基因座和似然得分的错误率为0.01。两个小组中所有个体的基因座类型比例都不同:微卫星模拟为0.997,单核苷酸多态性模拟为0.961。
对于这两个亲子关系分析,我们使用了来自CERVUS的Trio Lod评分和父-子Lod评分来进行作业。通过比较候选雄性和后代的基因型与已知母亲的基因型,计算出三个LOD评分。父亲璷ffspring lod分数仅说明候选男性与后代之间的关系,与已知母亲无关。CERVUS根据各类别的LOD分数对候选男性进行排名,排名最高的男性被指定为父亲。这些排名应该是一致的,但当多个候选男性基因型与后代的基因型紧密匹配时,可能会出现不明确的分配(每个类别中分配的不同的顶级男性)。
我们评估了每项CERVUS任务,以确定其是否合理,以及被分配的男性是社会父亲还是异性恋父亲。我们接受微卫星和单核苷酸多态性分配的标准略有不同。对于微卫星,如果三个LOD和父代LOD的排名最高的男性一致,并且所分配的男性和子代之间的不匹配数量为1(12个基因座的8%),我们自动接受CERVUS分配。对于单核苷酸多态性,我们也接受了分配,如果最高排名的男性按LOD评分类型是一致的,并且不超过允许的错配数量。然而,对于单核苷酸多态性,我们允许的失配数量是基于观察到的已知母亲和其已知后代之间的最大失配数量(max.=7,6 Thrasher等人平均值=3.4,411个位点的2%)。对于这两个小组,我们接受社会父亲作为基因父系,如果他满足这些各自的标准。如果社会父亲的后代数量不匹配,或者LOD分数为负,那么他们就被一个额外的父亲认为是自己的后代。我们采用上述相同的标准接受了额外父亲的任务。我们没有观察到这样的情况:一个后代既不能被分配给它的社会父亲,也不能被分配给一个异性伴侣。
2.6相关性分析
我们使用R版本3.2.5(R核心团队2016)中的“RELATED”软件包(Pew、Muir、Wang和Frasier,2015年)来估计本研究中所有成对个体之间的配对相关性(R)。该软件包可解释基因分型错误、缺失数据,并可使用七种不同估计量(四种非似然估计和三种似然估计)中的任何一种来估计相关性。“RELATED”包括功能、比较估计量,用于测试不同估计量对与真实数据具有相同特性的模拟数据的性能。该程序使用一个等位基因频率文件生成一对已知相关性的模拟个体,并使用四个最常用的估计量(所有非似然估计)自动估计相关性。该函数计算观察值和期望值之间的相关系数,以评估哪个估计值在数据集中表现最好。利用比较统计学家为每种关联度(即半SIB、全SIB、亲子代、不相关)生成200对模拟个体,我们确定Wang(2002)估计对我们的微卫星和SNP数据集表现最好。然而,由ddrad-seq生成的snp数据集有时容易通过等位基因退出而导致基因分型错误。Attard、Beheregaray和Moller(2018)发现,这会导致相关度估计值产生非常精确的值,但稍微向下偏移,尤其是对于大型数据集。在为独立SNP数据选择适当的相关性估计量时,应考虑这一点。为了在我们的微卫星和单核苷酸多态性数据集的比较中保持一致性,我们使用Wang(2002)估计量获得了相关性的点估计值,并评估了我们的亲子关系分析中先前确定的所有亲子关系。
“RELATED”也评估不同的标记集在给定基于等位基因频率文件的模拟基因型的情况下,如何解决相关性程度。对于这两个面板,我们使用FamilySim函数为每个关联度生成200对个体。然后,我们利用协方差函数,用王(2002)估计量分析所有的成对相关值。我们创建了表示相关值柱状图的密度图。这些图显示了关联度相关值的重叠,我们使用它们来推断每个面板在识别不同关系方面的表现。
为了我们的目的,我们分别在cervus和r包“RELATED”中进行亲子关系和相关性分析,以可靠地比较我们的微卫星和snp面板的性能。其他一些系谱重建项目也很容易获得(如Colony、Masterbayes和SEQUOIA),研究人员可以很容易地将SNP数据输入到他们的首选项目中(有关其中一些项目的详细比较,请参见Karaket&Poompuang,2012;Weinman等人,2015)。R包“SEQUOIA”(Huisman,2017年),专门为SNP数据量身定制,可以用多达100个SNP和许多非基因型个体重建多代系谱。考虑到这些因素,“SEQUOIA”对于社会信息有限或人口抽样不完整的研究可能特别有用。