遗传群体所用的技术
遗传群体所用的技术
简化基因组
简化基因组(Reduced-Representation Genome Sequencing,RRGS)是指利用限制性内切酶打断基因组DNA,对特定片段进行高通量测序获得海量遗传多态性标签序列来充分代表目标物种全基因组信息的测序策略。此方法实验步骤简单,成本低,而且可以不依赖参考基因组,就能获得全基因组范围内的遗传多态性标签,因而广泛应用于生态学,进化学和基因组学等领域。
实现高通量测序技术在基因定位研究中的最佳使用方法,全面降低测序成本
适用于所有物种
简化基因组测序技术的本质=-------------用部分片段代表全基因组
主要的简化基因组技术比较:使用得比较多的技术主要有四种:即经典的 RAD、经典的 GBS、2bRAD、 ddGBS(也就是ddRAD)。
RAD
基于酶切的简化基因组测序(RAD-Seq,Restriction-site Associated DNA Sequence)是对与限制性核酸内切酶识别位点相关的DNA进行高通量测序,可大幅降低基因组的复杂度,降低建库和测序成本,操作简便,同时不受参考基因组的限制,可快速鉴定出高密度的SNP位点,实现遗传进化分析及重要性状候选基因的预测。RAD-Seq尤其适合于大样本量的研究,可以为利用全基因组重测序技术做深度信息挖掘奠定坚实的基础。与传统芯片分型技术相比,RAD-Seq可以检测基因组上未知变异点中新的SNP,发掘新的和稀有的变异。RAD-Seq技术可广泛应用于变异检测、遗传图谱构建、功能基因挖掘、群体进化等研究,具有重大的科研和产业价值。
基于RAD-Seq的变异检测,利用RAD-Seq对某一物种个体或群体的基因组进行测序及差异分析,可获得SNP、InDel等大量的遗传多态性信息,建立遗传多态性数据库,为后续揭示进化关系、功能基因挖掘等提供理论基础。
基于RAD-Seq的遗传图谱的构建,对酶切获得的RAD tag进行高通量测序,可以获得RAD tag上的SNP。可广泛应用于遗传图谱的构建,从而为后续的QTL定位奠定基础。
基于RAD-Seq的群体进化分析,对物种的各亚种进行RAD测序获得基因组信息,通过与RAD tag组装出的参考序列或参考基因组序列进行比对,获得大量高准确性的SNP变异信息,以进化群体遗传学分析。
RAD-seq技术流程分为如下几步:
基因组DNA用限制性内切酶裂解, 然后连接到P1接头。P1接头里含有正向扩增和Illumina测序引物位点,以及4~5 bp 的核酸barcode. barcode至少大于3 bp。
之后接头连接的片段(adapter-ligated fragments)混池,随机打断
DNA随后连接到P2接头,反向扩增扩展引物无法连接P2. P2是一种Y型接头,包含P2反向扩增引物位点的反向互补序列,使得不含P1接头的片段无法扩增。(Y型接头的工作原理)
最后仅有同时含P1和P2接头的片段能够上机测序。
一般情况下,群体进化研究涉及较大的样本量,RAD-seq可大幅降低基因组的复杂度,降低建库和测序成本,操作简便。另外,它不受参考基因组的限制,研究物种范围更广泛。RAD-Seq尤其适合于大样本量的研究,可以为利用全基因组重测序技术做深度信息挖掘奠定坚实的基础
RADseq中的错误与偏差
1)等位基因丢失和无效等位基因:当多态性位点正好位于内切酶的酶切位点时,就会造成等位基因丢失;当等位基因位于的片段缺乏完整的酶切位点将不会被测序,成为无效等位基因,会造成基因分型错误。
2)PCR重复和分型错误:随机的PCR扩增过程会造成某一个等位基因比例的不均匀性,这种情况下:杂合子很可能会误以为是纯合子。
3)位点覆盖深度的差异:一般避免出现覆盖度差异的方法是增加单个样本的测序量,这样会导致测序成本的增加。
ddRAD-seq
ddRAD-seq和GBS相似,两者都不需要在加接头后进行随机打碎,GBS通过PCR扩增的方式过滤了大片段,而ddRAD-seq通过双酶切的方式,然后筛选固定长度来选择合适大小的片段
GBS
GBS适用于那些拥有家系群体或自然群体的物种,有无参考基因组均可;尤其适合重复序列较多的物种,如玉米、高粱等。
GBS文库构建比原始的RAD-seq步骤更加简单
将不同样本和含不同barcode接头成对放在平板里
使用ApeKI限制酶进行酶解
使用T4连接酶,将接头连接到片段两端因酶切产生的粘末端(stcky end)
将含不同barcode的样本混池,随后过片段长度筛选柱,过滤尚未反应的接头
加入PCR引物,进行PCR扩增
这里没有直接对片段进行筛选,但是PCR扩增时优先扩增小片段
GBS和RAD都是基于酶切处理的简化基因组技术,主要区别如下:
RAP和GBS的区别ddRAD-seq
ddRAD-seq和GBS相似,两者都不需要在加接头后进行随机打碎,GBS通过PCR扩增的方式过滤了大片段,而ddRAD-seq通过双酶切的方式,然后筛选固定长度来选择合适大小的片段
其实这些RAD-seq文库制备方法可以简单的分为两类:
1)对单酶切位点邻近片段测序,如最初的RAD-seq
2)对酶切位点两翼片段测序,如Genoytping-by-Sequencing
参考文献:
RAD-seq: Rapid SNP discovery and genetic mapping using sequenced RAD markers
GBS: A Robust, Simple Genotyping-by-Sequencing (GBS) Approach for High Diversity Species
ddRAD-seq: Double Digest RADseq: An Inexpensive Method for De Novo SNP Discovery and Genotyping in Model and Non-Model Species
2011 NATURE REVIEWS | GENETICS:Genome-wide genetic marker discovery and genotyping using next-generation
2016 NATURE REVIEWS | GENETICS:Harnessing the power of RADseq for ecological and evolutionary genomics
下面是常见的物RAD-seq方法比较
重测序
重测序是指在已知物种基因组的情况下,对物种内的不同个体或某个个体的不同组织进行基因组重测序,可以在全基因组水平上发现不同个体或组织细胞之间的差异。通过这种方法,可以寻找出大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion Deletion),结构变异位点(SV,Structure Variation),拷贝数变异(Copy Number Variation,CNV)等变异信息,从而获得生物群体的遗传特征。
与重测序对应的是基因从头测序也叫做基因de novo测序,是指不依赖于任何已知基因组序列信息对某个物种的基因组进行测序,然后应用生物信息学手段对测序序列进行拼接和组装,最终获得该物种基因组序列图谱。
流程:利用物理方法将基因组DNA进行随机打断后,根据建库所需片段大小进行回收,利用标准的Illumina建库流程构建小片段测序文库,采用100PE的模式进行测序,总体的测序深度在30X,但根据不同的实验测序要求测序深度可以进行调整。
重测序技术相对于其他技术相比具有以下优势:
(一)除了可以获得基因表达区的信息,还能获得内含子、基因间区域的信息;
(二)能够分析样品基因组中大片段的结构变异
基因组重测序是针对已知基因组序列的物种而言,重新测序的对象是该物种具有不同性状的其他个体。通过基因组重测序并进行差异信息分析,人们能够快速的进行很多有意义的研究,具有重大的科研价值和产业价值。具体来说主要有以下几点 :
(1)在群体水平研究物种的进化历史和对环境的适应性。对种内具有不同表型的个体进行基因组重测序,可以在全基因组水平上找到群体内个体间的DNA 差异,包括大量的 SNPs 和结构变异(structurevariations,SVs)等变异信息,而这些差异可能与这些个体的表型差异存在关联性,从而明确基因组是如何进化以使物种适应不同环境等问题。。(2)基因组重测序可以在全基因组水平扫描出与动植物重要性状相关的变异位点,是育种研究中迅速有效的新方法。(3)遗传突变、适应进化和表型筛选是创造出带有优良性状突变体的有力工具,基因组重测序技术有利于突变位点的定位和鉴定。
参考文献:Chen H, He H, et al., Development and application of a set of breeder-friendly SNP markers for genetic analyses and molecular breeding of rice (Oryza sativaL.).Theor Appl Genet. 123(6):869-879(2011)
Lam HM, Xu X, Liu X, et al. Resequencing of 31 wild andcultivated soybean genomes identifies patterns of genetic diversity and selection[J]. Nature Genetics, 2010, 42(12):1053-1059
基因芯片
基因芯片也称DNA微阵列,是生物芯片的一种。基因芯片原理最初是由核酸的分子杂交衍生而来的,即应用已知序列的核酸探针对未知序列的核酸序列进行杂交检测DNA芯片技术,实际上就是一种大规模集成的固相杂交。是指在固相支持物上原位合成( situ synthesis)寡核苷酸或者直接将大量预先制备的DNA探针以显微打印的方式有序地固化于支持物表面,然后与标记的样品杂交。通过计算机对杂交信号的检测分析,得出样品的遗传信息(基因序列及表达的信息)。由于常计算机硅芯片作为固相支持物,所以称为DNA芯片。
基因芯片采用大量特定的寡核苷酸片段或基因片段作为探针,有规律地固定于与光电测量装置相结合的硅片、玻璃片、塑料片或尼龙基底等固体支持物上,形成二维阵列,与待测的标记样品的基因按碱基对配对原理进行杂交,从而检测特定基因。
1、DNA探针的大量收集和纯化,基因芯片探针制备方法可以是根据基因设计特异性的PCR引物,对基因进行特异性地扩张,也可以是建立均一化的cDNA文库,通过克隆鉴定、筛选、扩增产生;
2、将纯化后的探针固定在片基上,首先要将基片(主要用的是玻璃片)进行特殊的化学处理,使玻璃片醛基化或氨基化,然后将纯化的探针通过显微打印或喷打在基片上,再将打印好的玻璃片进行后处理,如水合化、加热或紫外交联等;
3、样品的标记,标记的方法一般是采用逆转录法或随机引物延伸法等;
4、杂交后芯片的扫描、图像处理的采集和数据分析。
基因芯片的特点
1、高通量、多参数同步分析。目前基因芯片制作工艺可达到在1cm2的载体平面上固定数万至数十万的探针,可对样品中数量巨大的相关基因,甚至整个基因组及信息进行同步检测和分析。
2、快速全自动分析。在一定的条件下使样品中的靶基因片段同时与芯片的多个探针进行杂交,并采用扫描仪器测量杂交信号和分析处理数据。从而,从根本上提高了测量工作的速度和效率,也极大降低了测量工作的强度和难度。
3、高精确度分析。由于芯片上的每一点,即每个探针都可以精确定位和选址,加上每个探针都可以精确设计及制备,因此可以精确检测出不同的靶基因、同一靶基因不同的状态以及在一个碱基上的差别。
4、高精密度分析。商品化芯片制作上的精密及检测试剂和方法上的统一在一定程度上保证了芯片检测的高精密度和重现性,使不同批次乃至不同实验室之间的检测结果,可以进行有效比对及分析。
5、高灵敏度分析。基因芯片选用了不易产生扩散作用的载体,探针及样品靶基因的的杂交点非常集中,加上杂交前样品靶基因的扩增和杂交后检测信号的扩张,极大地提高了检测的灵敏度,可以检测出1个细胞中低至1个拷贝的靶基因,从而使检测所需的样品量大幅度减少,一般只需要10~20μL样品。
基因芯片的分类
基因芯片类型较为繁多,可以依据不同的分类方法进行分类,一般可分为以下几种:
1、按照载体上所添加DNA种类的不同,基因芯片可分为寡核苷酸芯片和cDNA芯片两种:寡核苷酸芯片一般以原位合成的方法固定到载体上,具有密集程度高、可合成任意系列的寡核苷酸等优点,适用于DNA序列测定、突变检测、SNP分析等;其缺点是合成寡核苷酸的长度有限,因而特异性较差,而且随着长度的增加,合成错误率增加。寡核苷酸芯片也可通过预合成点样制备,但固定率不如cDNA芯片高,寡核苷酸芯片主要用于点突变检测和测序,也可用作表达谱研究。cDNA芯片是将微量的cDNA片段在玻璃等载体上按矩阵密集排列并固化,其基因点样密度虽不及原位合成寡核苷酸芯片高,但比用传统载体的点样密度要高得多,cDNA芯片最大的优点是靶基因检测特异性非常好,主要用于表达谱研究。
2、按照载体材料分类:载体材料可分为无机材料和有机材料两种,无机材料有玻璃、硅片、陶瓷等,有机材料由有机膜、凝胶等。膜芯片的介质主要采用的是尼龙膜,其阵列密度比较低,用到的探针量较大,检测的方法主要是用放射性同位素的方法,检测的结果是一种单色的结果。而以玻璃为介质的芯片,阵列密度高,所用的探针量少,检测方法具有多样性,所得结果是一种彩色的结果,与膜芯片相比,结果分辨率更高一些,分析的灵活性更强。
3、按照点样方式的不同可以分为原位合成芯片、微矩阵芯片、电定位芯片三种。