看不懂测序峰图就好像有答案都不会抄

2020-05-28 本文已影响0人冻春卷

这篇文章的测序原理的部分本不在我的计划范围内，原本只是想回复一下之前部分读者关于套峰的问题，想着学习一下不同测序峰形的结果以及改进方法。某天晚上我打开华大基因的网页客户端，检查送出去的样品是否已经完成测序，看到样品测序未完成，却有一个“报告下载”的按钮，顺手打开看看，果然没有我的测序结果，却看到“峰图文件最能真实反映您的样本情况”的一行字，心想这谁不知道呀。再一想，我真的知道吗？道理我们都懂，但为何是这样的呢？想要回答这个问题，绕不开基因测序的原理。

1. NGS结果展示

检测基因编辑的金标准是NGS测序，我们多次提到“送测序”和“套峰”的字眼，但是到底什么才是套峰？更甚是，到底NGS的测序结果是什么样的。如果没有自己送样测序过，可能见过其他人的NGS结果，或是在文献上看到过基因编辑的序列结果：

可以看到：
（1）我们想象中的测序结果是一系列ATCG的序列；
（2）文章中可能会把序列和峰图一起放上来；
（3）文章中会省略峰图，直接放自己修整后的结果。

2. 简述测序原理

下一代测序（Next Generation Sequencing，NGS）也就是我们常说的高通量测序（High-Throughput Sequencing），是对传统的桑格测序（Sanger Sequencing）的改造，因此我们还要先来说一下桑格测序的原理（怎么突然变成生信内容了）。

2.1 桑格测序

首先我们知道DNA合成是需要碱基排列好，手牵手（磷酸二酯键）才可以的。在1977年，英国生物化学家弗雷德里克·桑格（Frederick Sanger）将脱氧三磷酸核苷酸dNTP的3'-OH脱氧，形成双脱氧三磷酸核苷酸ddNTP，失去3'-OH的ddNTP则失去与下一个dNTP牵手的能力，因此合成到此终止。由于这些ddNTP带有放射性同位素或者荧光标记，因此当不小心合成时用到了ddNTP，合成不仅终止，而且还能通过X光等检验到底是什么ddNTP。

如上图所示，DNA合成被分为4个管子，每个管子都带有模板和引物，同时tube1还混入了ddATP，相应的其他三个管子也混入了其他的ddNTPs。想象一下，把DNA合成测序的过程当做是一个生产工厂，就会有以下的情况发生：
（1）tube 1中合成正在有条不紊的进行着，随着一声令下（退火），每个primer开开心心的结合自己的模板，成千上万条生产线同时开工（延伸）；
（2）生产线1在合成到第三个碱基的时候不小心用到了ddATP，导致合成终止，它的信息被记录在案，这个模板在第三个碱基上是A。生产线2也勤勤恳恳，但不幸的是，它在合成到第10个碱基的时候也拿到了ddATP作为原料，生产再次终止，信息再次被记录：模板的第10个碱基也是A。如此成千上万条生产线，总会有倒霉的用到了ddATP而被迫停工的，这个时候，A碱基出现的位置就会被记录在案；
（3）这样的情况在tube 2、3和4也同样发生着，那么T、C和G的出现信息也被记录在案；
（4）最后各个tube的包工头，把各自tube的记录表格拿出来，把ATCG的出现位置整合到一条线上，就得到了测序结果，如下图：

2.2 NGS

NGS测序其实是桑格测序的升级版本，以illumia公司为例子，它是边合成边测序。同样我们也是将其想象为生产工厂，但这个工厂更大更快更精细：

（1）生产工厂

下图是测序用到的芯片，也叫Flow Cells，由8条lane组成。通道内表面有共价键结合的DNA primer。

（2）超多的生产线，每一个primer就是一个劳工，就是一个生产线，可见有数百万个primer站在那里等待开工。

（3）某一条具体的生产线：可以看到它是一边合成，一边根据不同碱基发出不同的荧光，那你要问了，桑格测序我知道啊，一个tube一个记录本，最后合在一起嘛。可是这里这么多primer，每一个都发光，到底咋整合数据？

（4）高通量的秘诀，超精密的摄像机！
如果你还停留在桑格测序，每一个包工头记录一个tube的碱基出现位置，那接下来你就要跌破眼镜了。这个“工厂”的上方，放了一个超级精密的摄像头，实时监控每一条“生产线”反馈的结果，而这个结果是荧光信号，那么我们终于知道了测序最原始的数据就是：光信号！在每一次测序的过程中，就像烟花绽放，又如繁星闪烁，十分美妙！

到这里，我们明白了最原始的测序数据是光信号，那么光信号和测序峰图有什么关系？到这里做湿实验的同学就了然于胸了，只要做过免疫荧光、流式分选，就会知道荧光都有激发光和发射光，每一种光都有自己的光谱，而这个光谱可以以光强度和波长大小绘制，就是峰形图。例如我们常用的Alex 488二抗，这抗体可在488 nm的激发光下发出绿色荧光，发射光峰值525 nm左右。机器就是通过对发射光谱进行捕捉和分析分析，从而判断是什么颜色，再推出这是什么碱基。

3. 测序峰图

3.1 正常峰图

不影响结果判断就是最低要求

3.2 套峰

套峰，顾名思义就是一个峰套着另外一个峰，其实就是在同一个碱基的位置，检测到至少两种光信号。

（1）结合问题，菌或质粒非单克隆：测序峰图一开始就是套峰，在某一点终止或从头到尾套峰。如果样本是菌落，则会有多模板的情况。如样本是未纯化的PCR产物，建议在送样前进行琼脂糖凝胶电泳检查PCR产物是否单一，可以纯化PCR产物再送测序。

（2）PCR样品杂合（有基因突变）：喜闻乐见，这种情况下代表DNA的两条链是不一样的情况，存在基因突变。此时需要连接载体后再送单克隆样本。

3.3 失败

其实对需要验证基因编辑结果的我们来说，只要不是单一或PCR样本杂交的峰图，统统都算失败。

4. 送样测序Tips

这部分内容在前系列有提过，在这里update我的Tips：

（1）在设计引物之时将产物大小固定在1000 bp以内，400-600 bp是个人最爱。原因是在起始位点附近以及1000 bp的长度之后测序不准确。以sgRNA结合位点为中心，向两边延伸300左右。在设计引物的时候固定引物出现的位置并限制产物长度，可以大大增加引物的满意度，一个小小的操作，结果却是大大的不同：

（2）PCR需要使用高保真酶，请一定要完整的阅读所买的DNA聚合酶的说明书，条件设置和debug什么的，还有谁会比官方更加清楚。以Q5高保真酶为例，其protocol后面的Tips高达十几条，包括不同模板使用的量、退火温度的计算、延伸时间的计算、引物浓度以及其他各种情况。只要不是引物设计出现问题，严格按照说明书操作，8kp的产物都轻轻松松P出来。

（3）建议PCR结束之后，一定要用琼脂糖验证PCR产物是否单一，小小一个步骤，省去大大的麻烦。

（4）不知为何PCR产物总是非常少，明明PCR条件一样，但是却有的sample能P出来，有些则不。可以适当怀疑一下PCR仪的加热问题，前阵子就遇到了这个情况，最后发现是PCR的加热孔加热不均匀（细心的记录下到底是哪一个孔的结果P不出来），遂果断弃用那台PCR仪，之后结果非常漂亮。

（5）胶回收也有技巧，有时候理解实验的原理能指导超出说明书的操作。例如胶回收试剂盒提出，要先称重DNA fragment所在的胶的重量，再按照重量加入1体积的binding buffer，binding buffer可以适当多加，融化充分才能更高的回收PCR产物。洗脱PCR产物时说明书的做法是incubate 2分钟，一般会增加到5分钟后再离心。

（6）先送PCR产物测序，如果拿到单峰条带，那就是纯合子；而如果拿到PCR样本杂合条带，则需要连接载体送测序。至少要得到这两种结果，才算合格。

最近在做干细胞分化，同一个protocol，即使是前人能做成功，自己未必做成功。所谓依样画葫芦，画出来的只是画而不是真的葫芦，我们需要的是自己去种出一个真葫芦。具体说来就是，师兄遇到过的坑，我一个都逃不掉，即使是提到过但由于自己没遇到过就根本无法体会。好好的干细胞分化，DZ师兄做得很漂亮，而我的细胞却在一夜之间衰老了。在我解决bug继续前行的时候，后面的小伙伴再次遇到和我一样的问题，真是天道好轮回，衰老饶过谁。

在这一段时间的分化实验过程中，发现了许多不一样的细节，比如：如何判定一个细胞的融合度，你看到的百分之百和别人的百分之百到底有何不同？怎么才算是将细胞消化下来了，你觉得的消化完成和别人的真的一样吗？这许许多多的主观意识的对细节的判断，虽很细小，却引起质的变化。做其他的事情也一样，就如今天，为何“峰图文件最能真实反映样本情况”，如果对这小小句子感兴趣，再结合自己已有知识去找到背后的原因，下一次再看峰图时，已不再认为它是一个简单的峰图，它是曾经闪烁过的“繁星”。