全基因合成方法

2020-04-05 本文已影响0人临窗听风雨

全基因合成是指在体外利用人工方法合成双链DNA分子的技术。基因合成无需模板，是获取基因的重要手段之一。目前该技术主要应用在克隆一些不易获取模板的基因、自然界不存在的新基因以及异源基因表达上，经常在对基因密码子优化后进行。密码子优化的必要性及方法，已经在前面的文章中介绍，想要回顾的点这里密码子优化。

全基因合成技术很成熟，一般的做法是：设计合成相互重叠的单链寡核苷酸，通过重叠延伸PCR法拼接出全长。关于全基因合成方法的资料网上一大堆，单全基因合成的相关专利都上百篇，常见的有重叠延伸PCR（OE-PCR）法[1,7]，双不对称PCR（DA-PCR）法[2]，聚合酶连反应（PCR）法[3]，连接酶链反应（LCR）法[4]，热力学平衡由内向外（TBIO）法[5]，PCR介导两步（PTDS）法[6]。说实话我并没有仔细研究这些方法，它们叫什么名字不重要，万变不离其宗：PCR，基于一定重叠的短引物通过聚合酶逐渐延伸成长片段。

全基因合成最简单的方法是什么？

当然是让DNA合成公司来合成，我们只需要提供DNA序列信息，他们会合成dsDNA并克隆在通用载体上，一般还提供测序信息，确保合成的正确性。这无疑是最简单、最省事的方法。而且现在全基因合成十分廉价，1bp不到一块钱还带测序的那种。

既然DNA合成公司那么方便，为什么还要自己合成呢？

① 公司合成慢，一般需要1-2周，如果碰到特殊序列比如对大肠杆菌毒性极大的编码序列，那周期就难说了（我做过一个核酸酶，合成公司一个月没搞定，自己合成一周搞定）。

② 不自由，合成公司提供的一般是携带目标基因的重组载体，拿到后还要用酶切切下来，如果基因内部含有酶切位点还需要避开，当然这些一般不是什么大问题，但你确实没得选。

③ 如前所述，全基因合成一般用于异源基因表达，异源表达的对象大多是酶，研究酶的性质可能又需要构建大量突变体。合成公司只提供一个序列，构建突变体还得自己设计引物重新构建，如果自己合成全基因，只需要将包含突变的引物替换掉，就可以同时获得各类突变体，这在构建含大量突变的突变体时，更有优势。

④ 序列需要保密，毕竟自己才最可靠。

总有人喜欢自己动手丰衣足食，本文我要介绍的是自己合成的方法，介绍两种方法：

1 基于“搭桥”PCR的一次拼接法

这种方法依赖于引物间的相互退火，彼此作为模板相互延伸，因此需要的引物总是一正一反。首先把全基因序列打断为短的oligos，一般不大于59bp，因为一般引物合成以59bp为分水岭，超过59bp价格和时间成本都会高很多。oligos靠3'末端互补序列相互退火，形成带有gaps的双链产物，再由DNA聚合酶补齐gaps，形成带有切刻的DNA双链，这种产物经过Taq DNA Ligase链接形成完整的双链产物，依此为模板进行PCR扩增即可得到目标基因，也可以直接使用带有切刻的DNA双链作为模板进行PCR扩增。

2 基于逐渐延伸的step by step法

这种方法仅最后一条引物为反向，其余均为正向，正向引物间具有重叠序列。倒数第一条oligo与倒数第二条oligo靠末端互补序列相互退火，经过第一次PCR循环，双链延长，延长的双链与倒数第三条oligo继续退火、延长，......，依此类推，直至全长序列合成。这种方法理论上一次PCR循环只能延伸一条引物，N条oliogs就至少需要经过N个PCR循环，由于只有一个延伸端，引物设计比方法1简单，而且引物数目不需要必须为偶数。

全基因合成一般步骤

⒈ 设计PCR引物

可以借助自动设计工具也可以人工设计，借助工具后面会详细介绍。如果人工设计，推荐使用SnapGene（这款软件的强大就不多说了，搞分子生物学应该都知道，网上有很多破解版，没安装的话自己去百度一个吧），将全基因序列复制进去之后，先调出“Preferences”面板，找到“Primer”选项，把3’端最短匹配长度和最低Tm分别设置为10bp和40℃，这样当你添加引物时软件就会自动提醒有没有次级结合位点（如下图）。

因为3’端错配对本文中的全基因合成方法十分不利，如果这两个设置太低实在难以设计出引物，可以适当调高至12bp和45℃，还不行的话只能优化密码子后再重新设计。

引物的长度预设为59bp，重点是重叠区的设计，一般应该根据重叠区的Tm来确定，不同重叠区之间的Tm平衡很重要，一般∆Tm不超过3℃，推荐把Tm设置在55-58℃之间。需要注意的是，针对本文的方法一，引物数目必须是偶数，从序列开头往后一条一条的拉，下一条oligo的起点是上一条的终点-重叠区，上正下反，如果最后为奇数条，要调整最后几条长度，补出一条反向引物。

针对方法二，从序列开头拉一条正向，剩余全部为反向直到末尾，也可以从末尾拉一条反向，剩余为正向直到开头，这种方法不用管引物数目。

⒉ PCR获得全长产物

一般需要两轮PCR。第一轮，加入少量引物，推荐50uL体系中0.5-1pmol/个oligo，10-15个循环，获得全长模板，本轮PCR推荐使用的DNA聚合酶应该同时缺失3’-5’和5’-3’外切酶活性，这两种活性会损伤重叠区的Tm平衡；第二轮，取1uLPCR产物做模板，加入20pmol全长上下游引物，20-25个循环获得目标基因，本轮PCR应使用高保真DNA聚合酶。

⒊ 克隆至表达载体

通过同源重组，酶切链接等方法将目标基因插入载体中，转化大肠杆菌或其他宿主感受态细胞，获取单克隆子。提示：在全基因合成前，一定要针对克隆/表达载体设计好同源臂或者酶切位点，直接加在全基因序列上，否则还要单独设计引物添加同源臂或者酶切位点。

⒋ 测序鉴定

菌体PCR鉴定阳性克隆子并挑选阳性克隆子测序，正确的克隆可用于下游的表达和纯化。

在线设计工具

OPTIMIZER：http://genomes.urv.es/OPTIMIZER/，这是一个非常优秀的在线设计工具，集密码子优化和全基因合成于一身，不过他生成的oligo只能是50、55、60等5的整倍（60就很尴尬了），而且它不检查引物条数，最后一条可能形成错配，这可以通过再设计额外的全长引物弥补。不过我现在发现打不开了，不知道是我的网络问题还是网址/服务器出了问题。

DNA Works[8]：这个工具来源于《Nucleic Acids Research》，论文中的连接失效了，这是我新找到的连接：https://hpcwebapps.cit.nih.gov/dnaworks/，也支持密码子优化，不过我觉得不是太好用，参数太多有点复杂了。

Gene2oligo[9]：也来源于《Nucleic Acids Research》，它设计的引物之间是没有空隙（gaps）的，论文中的连接也失效了（原来的链接：http://berry.engin.umich.edu/gene2oligo），我也没找到新的。

Assembly PCR Oligo Maker[10]：来源于《Nucleic Acids Research》，论文中的链接为： http://publish.yorku.ca/~pjohnson/AssemblyPCRoligomaker.html，我还是打不开（我都快哭了）。

GeMS[11]：来源于《Nucleic Acids Research》，这是一个软件套件，功能很多，链接是：http://software.kosan.com/GeMS，打不开。

GeneDesign[12]：来源于《Genome Research》，论文中的链接是：http://slam.bs.jhmi.edu/gd，但依然打不开，从论文内容看与我的工具比较像，也根据Tm计算重叠区，可惜没办法看到源码。

gene2oligos：http://www.liuzhen106.com/tools/104.html，这个一定打得开，这是我自己写的工具，包括密码子分析与优化，将基因自动转化为oligos，生成参考实验方案三个功能。生成的oligos，具有统一长度，重叠区具有相同的Tm值，Tm计算公式为：Tm = 64 + 0.41×GC - 528/n，怎么来的参考我的《PCR引物设计大法》。生成的oligos可以，一键复制，格式为oligo+序列编号+空格+Tab+序列(5’-3’)，可以直接导入SnapGene。

引物设计原则

长度：40-59bp，原则上引物长度即不能太短也不能太长。太短可能重叠区不够，无法达到Tm均衡，而且oligos之间空隙很短或者没有空隙，这样相当于对目标基因全覆盖，比较耗费碱基。引物越长，gaps越大，更节省碱基，但引物越长，引物合成越困难，我在《引物合成原理及纯化方式选择》一文中介绍过，引物越长副产物越多，如果没有高规格的纯化方式，可能会导致增高的非特性拼接概率。有些文献喜欢用40-46nt的引物，本文优先考虑长碱基，毕竟节俭碱基嘛。利用本文的方法，一般需要合成的总碱基数是全长序列的1.5倍，按照普通引物合成的价格，能够比合成公司节约将近40%的成本
重叠区：在oligos相互退火时，引物间的结合是同时发生的，因此重叠区的Tm均衡就十分重要，如果某些oligo的Tm过低，退火时不易与其它oligos结合可能导致缺失，如果Tm过高，可能形成稳定的中间片段，不利于获得全长模板。
3’端错配：针对本文所述的两种方法，3’端的错配可能会导致错误的产物，比如有1-6条oligo，原本应该按顺序连接起来，如果引物1和4末端存在互补序列，那么就可能形成缩短产物，而且这种产物在第二轮PCR中往往被优先扩增，这会影响下游实验。当然有时某些引物的3’端可能存在多个结合位点，尤其是高GC的序列，可能不得不存在几个错配碱基。那么这个3’端错配长度是多少才能使用呢？当然这个没有绝对界限，比如按Tm计算比完整重叠区的Tm低20℃，实际上这也是降低了错配的概率，我在以前的文章中解释过Tm的意义，Tm为40℃的序列不是说在50℃就完全不退火了，实际上仍然有一部分退火，只不过比例很低。如果使用长度来界定，8-10bp是一个常用的标准。此外，引物3’端对PCR延伸效率也很重要，有研究认为最后一个碱基最好为G/C，因此这一点也需要考虑。
引物条数：一般，我们想要尽可能少的使用引物，那么只能使用尽可能长的引物。至于引物数目是不是必须为偶数，这跟方法有关系，依靠一正一反相互延伸的，理论上需要偶数条，如果最后一条为奇数条，一般需要调整前面的引物长度，再补出一条反向引物。

验证设计效果

我的程序输出的引物可以被SnapGene识别，菜单栏点击“Primer”工具，点击”Import Primer from a List“选项，选择从剪贴板导入序列，

可以查看个引物是否完全覆盖目标序列，引物的“头尾“是否冲突等等。

以GFP为目标序列测试一下：

①从NCBI上找到GFP的序列，粘贴到文本框中，首先分析密码子偏性；

大肠杆菌的稀有密码子用红色标出，可见GFP原生基因中含有很多稀有密码子，可以先执行密码子优化。

②生成oligos，有两种方式，默认为方法一，如果引物见相似性高，会提示使用方法二。

点击生成oligos按钮后，会弹出总碱基数的统计信息，然后输出oliogs序号及序列，同时生成实验方案按钮和复制按钮，一键复制后可导入SanpGene分析。

③SanpGene分析

完全覆盖了GFP的基因，并且为偶数条引物，引物间的Tm基本一致（由于程序与SnapGene的Tm算法不一致，在SnapGene上只能看到基本一致。

④生成实验方案

体外全基因合成一般一次不超过1000bp，一次性合成太长会增加出错的概率，我推荐按800bp分段，程序会根据你输入的序列长度推荐分段数。

希望这个工具能帮到你完成全基因合成，我还写了辅助载体构建的工具，以后有机会再介绍。

参考文献

[1] Prodromou,C. and Pearl,L. (1992) Recursive PCR: a novel technique for total gene synthesis. Protein Eng., 5, 827–829.
[2] Sandhu,G.S, Aleff,R.A. and Kline,B.C. (1992) Dual asymmetric PCR: one-step construction of synthetic genes. Biotechniques, 12, 14–16.
[3] Stemmer,W.P., Crameri,A., Ha,K.D., Brennan,T.M. and Heyneker,H.L. (1995) Single-step assembly of a gene and entire plasmid from large numbers of oligodeoxyribonucleotides. Gene, 164, 49–53.
[4] Au,L.C., Yang,F.Y., Yang,W.J., Lo,S.H. and Kao,C.F. (1998) Gene synthesis by a LCR-based approach: high-level production of leptin-L54 using synthetic gene in Escherichia coli. Biochem. Biophys. Res. Commun., 248, 200–203.
[5] Gao,X., Yo,P., Keith,A., Ragan,T.J. and Harris,T.K. (2003) Thermodynamically balanced inside-out (TBIO) PCR-based gene synthesis: a novel method of primer design for high-fidelity assembly of longer gene sequences. Nucleic Acids Res.,31, e143.
[6] Xiong,A.-S., Yao,Q.-H., Peng,R.-H., Li,X., Fan,H.-Q., Cheng,Z.-M. and Li,Y. (2004) A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences. Nucleic Acids Res., 32, e98.
[7] Young,L. and Dong,Q. (2004) Two-step total gene synthesis method. Nucleic Acids Res., 32, e59.
[8] Hoover,D.M. and Lubkowski,J. (2002) DNAWorks: an automated method for designing oligonucleotides for PCR-based gene synthesis. Nucleic Acids Res., 30, e43.
[9] Rouillard,J.-M., Lee,W., Truan,G., Gao,X., Zhou,X. and Gulari,E.(2004) Gene2oligo: oligonucleotide design for in vitro gene synthesis. Nucleic Acids Res., 32, W176–W180.
[10] Rydzanicz,R., Zhao,X.S. and Johnson,P.E. (2005) Assembly PCR oligo maker: a tool for designing oligodeoxynucleotides for constructing long DNA molecules for RNA production. Nucleic Acids Res., 33, W521–W525.
[11] Jayaraj,S., Reid,R. and Santi,D.V. (2005) GeMS: an advanced software package for designing synthetic genes. Nucleic Acids Res., 33, 3011–3016.
[12] Richardson,S.M., Wheelan,S.J., Yarrington,R.M. and Boeke,J.D. (2006) GeneDesign: rapid, automated design of multikilobase synthetic genes. Genome Res., 16, 550–556.

全基因合成方法

全基因合成一般步骤

在线设计工具

引物设计原则

验证设计效果

猜你喜欢

热点阅读