低成本全基因组SNP分型策略
1. SNP芯片
目前最常用的全基因组SNP分型方法,主流的SNP芯片:
-
Illumina Infinium技术。全基因组扩增,不需PCR,采用50 mer寡核苷酸探针退火,利用特异荧光基团判定基因型。
-
Axiom原位光刻技术(原Affymetrix公司,后被Thermo收购)。需对DNA定量后进行PCR扩增,采用30 mer50 mer寡核苷酸探针退火,并利用特异荧光基团判定基因型。
主要畜禽常用芯片:
主要农作物常用芯片:
image.png
近年,英国LGC公司推出了基于KASP(Kompetitive Allele-Specific PCR,竞争性等位基因特异性PCR)的SNPline基因分型检测方案。这项技术是基于引物末端碱基的特异匹配来对SNP分型以及检测InDels (Insertions and Deletions,插入和缺失)。只要合成两个通用荧光探针,两个通用淬灭探针,再加合成多个针对具体位点的SNP PCR引物,就可以测许多位点;因为荧光探针和淬灭探针都很贵,KASP方法相比于Taqman方法,可以通过通用荧光探针来代替针对位点的荧光探针,大大节约成本。
在作物分子育种中,一般先利用高密度芯片快速准确地定位目标基因,对于多基因控制的农艺性状则确定其数量性状位点,而在接下来的回交育种和轮回选择等工作中,可使用更具有针对性的KASP的SNP芯片对后代单株进行选择。
基因芯片按寻址方式和最终检测载体又可分为固相芯片和液相芯片。液相芯片又称多功能悬浮点阵仪,是近几年出现的一种新型生物芯片,被喻为后基因组时代的芯片技术。它将流式检测与芯片技术有机的结合在一起,大大延伸了流式的检测平台。其最突出的优点在于:仅需少量样本即可同时性、定量检测同一样本中的多种不同目标分子,即多重检测。
商业化SNP芯片不足:
-
标记数量有限,难满足所有类型研究需求,如QTL精细定位;
-
只能检测已知突变,无法检测新生突变;
-
一般针对某些知名品种设计,与大多数研究的地方品种或闭锁群体的遗传距离较大,造成部分标记位点在特定群体中失效(如早期基于B73 和Mo17 这2 个温带玉米自交系测序草图开发的SNP 芯片,无法识别出热带玉米基因组中的优异等位变异)。需要对特定品种特定群体进行芯片定制,提高了成本。 <a name="dkyBi"></a>
2. 简化基因组测序
简化基因组测序(reduced-representation genome sequencing, RRGS)已经包含10余种不同命名方法,但目前广泛应用的主要是RAD-seq和GBS及其改良版本。各种简化基因组测序的通用之处是通过一个或一组限制性内切酶打断基因组,然后与特定的测序接头或双链寡聚核苷酸序列连接,最后进行高通量测序。不同之处主要体现在内切酶选择、酶切方式、接头连接方法、标签序列设计、片段大小筛选流程、测序数据类型、数据分析方法等环节。
image.png
RRGS能在一次试验中以更低成本获得比中通量SNP芯片更高密度的、覆盖全基因组的遗传标记。美国农业部下属机构已将它广泛应用于玉米、小麦等GWAS和GS研究。我国广东温氏公司大规模的杜洛克猪GS也应用了GBS流程。
RRGS特有的误差和偏好:
-
酶切的问题。当同一限制性酶切位点在不同个体间出现多态,可能造成部分个体在此位点无法正常酶切,导致某一等位基因丢失,最后表现为某一杂合子位点被误判为纯合子。若某一点的酶切出现问题,其临近位点的酶切片段长度会同时受到干扰,如果长度超过片段筛选的预期长度,则临近位点可能被错误丢弃。
-
酶切片段与PCR重复区分问题。在二代测序文库中,基因组随机打断后不同DNA片段旗帜位置几乎不可能完全相同,所以才可通过信息学手段过滤PCR所产生的重复DNA片段。但是在简化基因组文库中,所有片段位于酶切位点,起止位置理论上完全相同,使得其表现类似于PCR重复而无法区分。改进方法如利用简并碱基、去除PCR步骤等来降低PCR干扰。
近期,海南大学三亚南繁研究院和热带作物学院的夏志强老师团队开发了一种极低成本、高效、灵活、高通量的DNA测序文库制备和基因分型方法——Hyper-seq: A novel, effective, and flexible marker-assisted selection and genotyping approach,该技术具有广泛的适用性和可扩展性,同时具有一定的基因区域富集效应。可以根据不同的物种和项目的需求,通过使用不同的Hyper-seq引物,灵活地调节标记密度,通过特殊的PCR方式,不需要额外酶切和连接接头等,即可实现大量样品同时建库,产出海量基因型大数据,以低成本满足不同物种大规模分型测序的需求。对于1G基因组样本,Hyper-seq建库测序成本可以降低到每个样本不到10美元。与育种芯片相比,Hyper-seq技术能检测出更多的标记。适用于各物种(包括复杂大基因组)的重测序或简化测序,适用于作物遗传背景筛选、遗传图谱构建、全基因组关联分析、目标关键基因或新候选基因定位、品种鉴定、基因组选择育种、生物安全防控的分子检测等。
3. 全基因组低深度重测序
首先对群体中所有个体进行全基因组低深度测序和变异检测,之后根据SNP位点间的LD对缺失基因型进行推断,最终获取大规模样本全基因组水平的高密度标记。
低深度测序最核心步骤是群体水平的基因型填充(imputation)。通过已知的单倍型参考数据或大量样本中缺失基因型进行推断。
目前最常见的基因型填充策略大多基于参考单倍型,两个主要步骤:
-
首先对目标样本进行预定相(pre-phasing),得到区域内的单倍型信息;
-
然后根据参考数据集的单倍型对缺失基因型进行填充。
人类基因组研究通常用shapeit2获取等位基因的相位信息,再通过beagle、impute2等工具结合参考数据集进行填充。华大自主开发了BaseVar软件。
不依赖于参考单倍型的填充而借助大量个体的测序数据中片段的共享对群体祖先单倍型进行推断,之后再根据推断出的单倍型对每个个体的缺失数据进行填充。 stitich软件通过使用隐马模型及EM算法对研究群体的祖先单倍型进行估计,然后根据祖先单倍型对低深度重测序数据中的缺失基因型进行填充,在一定程度上克服了非人类基因组研究中缺少高质量参考单倍型数据集的难题。
一些低深度重测序应用的例子:
-
水稻:517个水稻地方品种~1 x 重测序与填充,构建高密度单体型图谱,并进行GWAS。
-
人类(Cell, 2018). Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History:14万余中国人NIPT 0.06-0.1 x重测序,华大自主开发BaseVar鉴定基因型,stitch软件填充。
-
猪(Gigascience, 2021). Accelerated deciphering of the genetic architecture ofagricultural economic traits in pigs using a low-coverage whole-genomesequencing strategy:中国农大胡晓湘和华大合作,2869头杜洛克公猪,使用自主优化的Tn5转座酶方法进行基因组文库构建,于MGISEQ-2000平台进行平均0.73×低深度全基因组测序,优选BaseVar-Stitch流程进行Reference Panel构建和基因型填充。
-
小鼠(Nature Gentics, 2016). Genome-wide association of multiple complex traits in outbred mice by ultra-low-coverage sequencing:1887只远缘杂交系小鼠0.15x 重测序基因分型与GWAS。
此外,靶向测序基因型检测及其与液相芯片相结合,也是目前常用的一种降低成本的基因分型方式。至于高深度的全基因组重测序,鉴于成本太高,此处不再赘述。
参考:
全基因组SNP分型策略及基因组预测方法的研究进展(2020)
农作物SNP芯片技术及其在分子育种中的应用(2018) 液相芯片技术行业研究
高密度液相生物芯片