全基因合成方法
全基因合成是指在体外利用人工方法合成双链DNA分子的技术。基因合成无需模板,是获取基因的重要手段之一。目前该技术主要应用在克隆一些不易获取模板的基因、自然界不存在的新基因以及异源基因表达上,经常在对基因密码子优化后进行。密码子优化的必要性及方法,已经在前面的文章中介绍,想要回顾的点这里密码子优化。
全基因合成技术很成熟,一般的做法是:设计合成相互重叠的单链寡核苷酸,通过重叠延伸PCR法拼接出全长。关于全基因合成方法的资料网上一大堆,单全基因合成的相关专利都上百篇,常见的有重叠延伸PCR(OE-PCR)法[1,7],双不对称PCR(DA-PCR)法[2],聚合酶连反应(PCR)法[3],连接酶链反应(LCR)法[4],热力学平衡由内向外(TBIO)法[5],PCR介导两步(PTDS)法[6]。说实话我并没有仔细研究这些方法,它们叫什么名字不重要,万变不离其宗:PCR,基于一定重叠的短引物通过聚合酶逐渐延伸成长片段。
全基因合成最简单的方法是什么?
当然是让DNA合成公司来合成,我们只需要提供DNA序列信息,他们会合成dsDNA并克隆在通用载体上,一般还提供测序信息,确保合成的正确性。这无疑是最简单、最省事的方法。而且现在全基因合成十分廉价,1bp不到一块钱还带测序的那种。
既然DNA合成公司那么方便,为什么还要自己合成呢?
① 公司合成慢,一般需要1-2周,如果碰到特殊序列比如对大肠杆菌毒性极大的编码序列,那周期就难说了(我做过一个核酸酶,合成公司一个月没搞定,自己合成一周搞定)。
② 不自由,合成公司提供的一般是携带目标基因的重组载体,拿到后还要用酶切切下来,如果基因内部含有酶切位点还需要避开,当然这些一般不是什么大问题,但你确实没得选。
③ 如前所述,全基因合成一般用于异源基因表达,异源表达的对象大多是酶,研究酶的性质可能又需要构建大量突变体。合成公司只提供一个序列,构建突变体还得自己设计引物重新构建,如果自己合成全基因,只需要将包含突变的引物替换掉,就可以同时获得各类突变体,这在构建含大量突变的突变体时,更有优势。
④ 序列需要保密,毕竟自己才最可靠。
总有人喜欢自己动手丰衣足食,本文我要介绍的是自己合成的方法,介绍两种方法:
1 基于“搭桥”PCR的一次拼接法
这种方法依赖于引物间的相互退火,彼此作为模板相互延伸,因此需要的引物总是一正一反。首先把全基因序列打断为短的oligos,一般不大于59bp,因为一般引物合成以59bp为分水岭,超过59bp价格和时间成本都会高很多。oligos靠3'末端互补序列相互退火,形成带有gaps的双链产物,再由DNA聚合酶补齐gaps,形成带有切刻的DNA双链,这种产物经过Taq DNA Ligase链接形成完整的双链产物,依此为模板进行PCR扩增即可得到目标基因,也可以直接使用带有切刻的DNA双链作为模板进行PCR扩增。
2 基于逐渐延伸的step by step法
这种方法仅最后一条引物为反向,其余均为正向,正向引物间具有重叠序列。倒数第一条oligo与倒数第二条oligo靠末端互补序列相互退火,经过第一次PCR循环,双链延长,延长的双链与倒数第三条oligo继续退火、延长,......,依此类推,直至全长序列合成。这种方法理论上一次PCR循环只能延伸一条引物,N条oliogs就至少需要经过N个PCR循环,由于只有一个延伸端,引物设计比方法1简单,而且引物数目不需要必须为偶数。
全基因合成一般步骤
⒈ 设计PCR引物
可以借助自动设计工具也可以人工设计,借助工具后面会详细介绍。如果人工设计,推荐使用SnapGene(这款软件的强大就不多说了,搞分子生物学应该都知道,网上有很多破解版,没安装的话自己去百度一个吧),将全基因序列复制进去之后,先调出“Preferences”面板,找到“Primer”选项,把3’端最短匹配长度和最低Tm分别设置为10bp和40℃,这样当你添加引物时软件就会自动提醒有没有次级结合位点(如下图)。
因为3’端错配对本文中的全基因合成方法十分不利,如果这两个设置太低实在难以设计出引物,可以适当调高至12bp和45℃,还不行的话只能优化密码子后再重新设计。
引物的长度预设为59bp,重点是重叠区的设计,一般应该根据重叠区的Tm来确定,不同重叠区之间的Tm平衡很重要,一般∆Tm不超过3℃,推荐把Tm设置在55-58℃之间。需要注意的是,针对本文的方法一,引物数目必须是偶数,从序列开头往后一条一条的拉,下一条oligo的起点是上一条的终点-重叠区,上正下反,如果最后为奇数条,要调整最后几条长度,补出一条反向引物。
针对方法二,从序列开头拉一条正向,剩余全部为反向直到末尾,也可以从末尾拉一条反向,剩余为正向直到开头,这种方法不用管引物数目。
⒉ PCR获得全长产物
一般需要两轮PCR。第一轮,加入少量引物,推荐50uL体系中0.5-1pmol/个oligo,10-15个循环,获得全长模板,本轮PCR推荐使用的DNA聚合酶应该同时缺失3’-5’和5’-3’外切酶活性,这两种活性会损伤重叠区的Tm平衡;第二轮,取1uLPCR产物做模板,加入20pmol全长上下游引物,20-25个循环获得目标基因,本轮PCR应使用高保真DNA聚合酶。
⒊ 克隆至表达载体
通过同源重组,酶切链接等方法将目标基因插入载体中,转化大肠杆菌或其他宿主感受态细胞,获取单克隆子。提示:在全基因合成前,一定要针对克隆/表达载体设计好同源臂或者酶切位点,直接加在全基因序列上,否则还要单独设计引物添加同源臂或者酶切位点。
⒋ 测序鉴定
菌体PCR鉴定阳性克隆子并挑选阳性克隆子测序,正确的克隆可用于下游的表达和纯化。
在线设计工具
OPTIMIZER:http://genomes.urv.es/OPTIMIZER/,这是一个非常优秀的在线设计工具,集密码子优化和全基因合成于一身,不过他生成的oligo只能是50、55、60等5的整倍(60就很尴尬了),而且它不检查引物条数,最后一条可能形成错配,这可以通过再设计额外的全长引物弥补。不过我现在发现打不开了,不知道是我的网络问题还是网址/服务器出了问题。
DNA Works[8]:这个工具来源于《Nucleic Acids Research》,论文中的连接失效了,这是我新找到的连接:https://hpcwebapps.cit.nih.gov/dnaworks/,也支持密码子优化,不过我觉得不是太好用,参数太多有点复杂了。
Gene2oligo[9]:也来源于《Nucleic Acids Research》,它设计的引物之间是没有空隙(gaps)的,论文中的连接也失效了(原来的链接:http://berry.engin.umich.edu/gene2oligo),我也没找到新的。
Assembly PCR Oligo Maker[10]:来源于《Nucleic Acids Research》,论文中的链接为: http://publish.yorku.ca/~pjohnson/AssemblyPCRoligomaker.html,我还是打不开(我都快哭了)。
GeMS[11]:来源于《Nucleic Acids Research》,这是一个软件套件,功能很多,链接是:http://software.kosan.com/GeMS,打不开。
GeneDesign[12]:来源于《Genome Research》,论文中的链接是:http://slam.bs.jhmi.edu/gd,但依然打不开,从论文内容看与我的工具比较像,也根据Tm计算重叠区,可惜没办法看到源码。
gene2oligos:http://www.liuzhen106.com/tools/104.html,这个一定打得开,这是我自己写的工具,包括密码子分析与优化,将基因自动转化为oligos,生成参考实验方案三个功能。生成的oligos,具有统一长度,重叠区具有相同的Tm值,Tm计算公式为:Tm = 64 + 0.41×GC - 528/n,怎么来的参考我的《PCR引物设计大法》。生成的oligos可以,一键复制,格式为oligo+序列编号+空格+Tab+序列(5’-3’),可以直接导入SnapGene。
引物设计原则
-
长度:40-59bp,原则上引物长度即不能太短也不能太长。太短可能重叠区不够,无法达到Tm均衡,而且oligos之间空隙很短或者没有空隙,这样相当于对目标基因全覆盖,比较耗费碱基。引物越长,gaps越大,更节省碱基,但引物越长,引物合成越困难,我在《引物合成原理及纯化方式选择》一文中介绍过,引物越长副产物越多,如果没有高规格的纯化方式,可能会导致增高的非特性拼接概率。有些文献喜欢用40-46nt的引物,本文优先考虑长碱基,毕竟节俭碱基嘛。利用本文的方法,一般需要合成的总碱基数是全长序列的1.5倍,按照普通引物合成的价格,能够比合成公司节约将近40%的成本
-
重叠区:在oligos相互退火时,引物间的结合是同时发生的,因此重叠区的Tm均衡就十分重要,如果某些oligo的Tm过低,退火时不易与其它oligos结合可能导致缺失,如果Tm过高,可能形成稳定的中间片段,不利于获得全长模板。
-
3’端错配:针对本文所述的两种方法,3’端的错配可能会导致错误的产物,比如有1-6条oligo,原本应该按顺序连接起来,如果引物1和4末端存在互补序列,那么就可能形成缩短产物,而且这种产物在第二轮PCR中往往被优先扩增,这会影响下游实验。当然有时某些引物的3’端可能存在多个结合位点,尤其是高GC的序列,可能不得不存在几个错配碱基。那么这个3’端错配长度是多少才能使用呢?当然这个没有绝对界限,比如按Tm计算比完整重叠区的Tm低20℃,实际上这也是降低了错配的概率,我在以前的文章中解释过Tm的意义,Tm为40℃的序列不是说在50℃就完全不退火了,实际上仍然有一部分退火,只不过比例很低。如果使用长度来界定,8-10bp是一个常用的标准。此外,引物3’端对PCR延伸效率也很重要,有研究认为最后一个碱基最好为G/C,因此这一点也需要考虑。
-
引物条数:一般,我们想要尽可能少的使用引物,那么只能使用尽可能长的引物。至于引物数目是不是必须为偶数,这跟方法有关系,依靠一正一反相互延伸的,理论上需要偶数条,如果最后一条为奇数条,一般需要调整前面的引物长度,再补出一条反向引物。
验证设计效果
我的程序输出的引物可以被SnapGene识别,菜单栏点击“Primer”工具,点击”Import Primer from a List“选项,选择从剪贴板导入序列,
可以查看个引物是否完全覆盖目标序列,引物的“头尾“是否冲突等等。
以GFP为目标序列测试一下:
①从NCBI上找到GFP的序列,粘贴到文本框中,首先分析密码子偏性;
大肠杆菌的稀有密码子用红色标出,可见GFP原生基因中含有很多稀有密码子,可以先执行密码子优化。
②生成oligos,有两种方式,默认为方法一,如果引物见相似性高,会提示使用方法二。
点击生成oligos按钮后,会弹出总碱基数的统计信息,然后输出oliogs序号及序列,同时生成实验方案按钮和复制按钮,一键复制后可导入SanpGene分析。
③SanpGene分析
完全覆盖了GFP的基因,并且为偶数条引物,引物间的Tm基本一致(由于程序与SnapGene的Tm算法不一致,在SnapGene上只能看到基本一致。
④生成实验方案
体外全基因合成一般一次不超过1000bp,一次性合成太长会增加出错的概率,我推荐按800bp分段,程序会根据你输入的序列长度推荐分段数。
希望这个工具能帮到你完成全基因合成,我还写了辅助载体构建的工具,以后有机会再介绍。
参考文献
[1] Prodromou,C. and Pearl,L. (1992) Recursive PCR: a novel technique for total gene synthesis. Protein Eng., 5, 827–829.
[2] Sandhu,G.S, Aleff,R.A. and Kline,B.C. (1992) Dual asymmetric PCR: one-step construction of synthetic genes. Biotechniques, 12, 14–16.
[3] Stemmer,W.P., Crameri,A., Ha,K.D., Brennan,T.M. and Heyneker,H.L. (1995) Single-step assembly of a gene and entire plasmid from large numbers of oligodeoxyribonucleotides. Gene, 164, 49–53.
[4] Au,L.C., Yang,F.Y., Yang,W.J., Lo,S.H. and Kao,C.F. (1998) Gene synthesis by a LCR-based approach: high-level production of leptin-L54 using synthetic gene in Escherichia coli. Biochem. Biophys. Res. Commun., 248, 200–203.
[5] Gao,X., Yo,P., Keith,A., Ragan,T.J. and Harris,T.K. (2003) Thermodynamically balanced inside-out (TBIO) PCR-based gene synthesis: a novel method of primer design for high-fidelity assembly of longer gene sequences. Nucleic Acids Res.,31, e143.
[6] Xiong,A.-S., Yao,Q.-H., Peng,R.-H., Li,X., Fan,H.-Q., Cheng,Z.-M. and Li,Y. (2004) A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences. Nucleic Acids Res., 32, e98.
[7] Young,L. and Dong,Q. (2004) Two-step total gene synthesis method. Nucleic Acids Res., 32, e59.
[8] Hoover,D.M. and Lubkowski,J. (2002) DNAWorks: an automated method for designing oligonucleotides for PCR-based gene synthesis. Nucleic Acids Res., 30, e43.
[9] Rouillard,J.-M., Lee,W., Truan,G., Gao,X., Zhou,X. and Gulari,E.(2004) Gene2oligo: oligonucleotide design for in vitro gene synthesis. Nucleic Acids Res., 32, W176–W180.
[10] Rydzanicz,R., Zhao,X.S. and Johnson,P.E. (2005) Assembly PCR oligo maker: a tool for designing oligodeoxynucleotides for constructing long DNA molecules for RNA production. Nucleic Acids Res., 33, W521–W525.
[11] Jayaraj,S., Reid,R. and Santi,D.V. (2005) GeMS: an advanced software package for designing synthetic genes. Nucleic Acids Res., 33, 3011–3016.
[12] Richardson,S.M., Wheelan,S.J., Yarrington,R.M. and Boeke,J.D. (2006) GeneDesign: rapid, automated design of multikilobase synthetic genes. Genome Res., 16, 550–556.