实验相关一些需要知道的概念生信

看不懂测序峰图就好像有答案都不会抄

2020-05-28  本文已影响0人  冻春卷

这篇文章的测序原理的部分本不在我的计划范围内,原本只是想回复一下之前部分读者关于套峰的问题,想着学习一下不同测序峰形的结果以及改进方法。某天晚上我打开华大基因的网页客户端,检查送出去的样品是否已经完成测序,看到样品测序未完成,却有一个“报告下载”的按钮,顺手打开看看,果然没有我的测序结果,却看到“峰图文件最能真实反映您的样本情况”的一行字,心想这谁不知道呀。再一想,我真的知道吗?道理我们都懂,但为何是这样的呢?想要回答这个问题,绕不开基因测序的原理。

1

1. NGS结果展示

检测基因编辑的金标准是NGS测序,我们多次提到“送测序”和“套峰”的字眼,但是到底什么才是套峰?更甚是,到底NGS的测序结果是什么样的。如果没有自己送样测序过,可能见过其他人的NGS结果,或是在文献上看到过基因编辑的序列结果:

2

可以看到:
(1)我们想象中的测序结果是一系列ATCG的序列;
(2)文章中可能会把序列和峰图一起放上来;
(3)文章中会省略峰图,直接放自己修整后的结果。

2. 简述测序原理

下一代测序(Next Generation Sequencing,NGS)也就是我们常说的高通量测序(High-Throughput Sequencing),是对传统的桑格测序(Sanger Sequencing)的改造,因此我们还要先来说一下桑格测序的原理(怎么突然变成生信内容了)。

2.1 桑格测序

首先我们知道DNA合成是需要碱基排列好,手牵手(磷酸二酯键)才可以的。在1977年,英国生物化学家弗雷德里克·桑格(Frederick Sanger)将脱氧三磷酸核苷酸dNTP的3'-OH脱氧,形成双脱氧三磷酸核苷酸ddNTP,失去3'-OH的ddNTP则失去与下一个dNTP牵手的能力,因此合成到此终止。由于这些ddNTP带有放射性同位素或者荧光标记,因此当不小心合成时用到了ddNTP,合成不仅终止,而且还能通过X光等检验到底是什么ddNTP

3

如上图所示,DNA合成被分为4个管子,每个管子都带有模板和引物,同时tube1还混入了ddATP,相应的其他三个管子也混入了其他的ddNTPs。想象一下,把DNA合成测序的过程当做是一个生产工厂,就会有以下的情况发生
(1)tube 1中合成正在有条不紊的进行着,随着一声令下(退火),每个primer开开心心的结合自己的模板,成千上万条生产线同时开工(延伸);
(2)生产线1在合成到第三个碱基的时候不小心用到了ddATP,导致合成终止,它的信息被记录在案,这个模板在第三个碱基上是A。生产线2也勤勤恳恳,但不幸的是,它在合成到第10个碱基的时候也拿到了ddATP作为原料,生产再次终止,信息再次被记录:模板的第10个碱基也是A。如此成千上万条生产线,总会有倒霉的用到了ddATP而被迫停工的,这个时候,A碱基出现的位置就会被记录在案;
(3)这样的情况在tube 2、3和4也同样发生着,那么T、C和G的出现信息也被记录在案;
(4)最后各个tube的包工头,把各自tube的记录表格拿出来,把ATCG的出现位置整合到一条线上,就得到了测序结果,如下图:

4

2.2 NGS

NGS测序其实是桑格测序的升级版本,以illumia公司为例子,它是边合成边测序。同样我们也是将其想象为生产工厂,但这个工厂更大更快更精细:

(1)生产工厂

下图是测序用到的芯片,也叫Flow Cells,由8条lane组成。通道内表面有共价键结合的DNA primer。

5

(2)超多的生产线,每一个primer就是一个劳工,就是一个生产线,可见有数百万个primer站在那里等待开工。

6

(3)某一条具体的生产线:可以看到它是一边合成,一边根据不同碱基发出不同的荧光,那你要问了,桑格测序我知道啊,一个tube一个记录本,最后合在一起嘛。可是这里这么多primer,每一个都发光,到底咋整合数据?

7

(4)高通量的秘诀,超精密的摄像机!
如果你还停留在桑格测序,每一个包工头记录一个tube的碱基出现位置,那接下来你就要跌破眼镜了。这个“工厂”的上方,放了一个超级精密的摄像头,实时监控每一条“生产线”反馈的结果,而这个结果是荧光信号,那么我们终于知道了测序最原始的数据就是:光信号!在每一次测序的过程中,就像烟花绽放,又如繁星闪烁,十分美妙!

8

到这里,我们明白了最原始的测序数据是光信号,那么光信号和测序峰图有什么关系?到这里做湿实验的同学就了然于胸了,只要做过免疫荧光、流式分选,就会知道荧光都有激发光和发射光,每一种光都有自己的光谱,而这个光谱可以以光强度和波长大小绘制,就是峰形图。例如我们常用的Alex 488二抗,这抗体可在488 nm的激发光下发出绿色荧光,发射光峰值525 nm左右。机器就是通过对发射光谱进行捕捉和分析分析,从而判断是什么颜色,再推出这是什么碱基。

3. 测序峰图

3.1 正常峰图

不影响结果判断就是最低要求


9

3.2 套峰

套峰,顾名思义就是一个峰套着另外一个峰,其实就是在同一个碱基的位置,检测到至少两种光信号。

(1)结合问题,菌或质粒非单克隆:测序峰图一开始就是套峰,在某一点终止或从头到尾套峰。如果样本是菌落,则会有多模板的情况。如样本是未纯化的PCR产物,建议在送样前进行琼脂糖凝胶电泳检查PCR产物是否单一,可以纯化PCR产物再送测序。

10

(2)PCR样品杂合(有基因突变):喜闻乐见,这种情况下代表DNA的两条链是不一样的情况,存在基因突变。此时需要连接载体后再送单克隆样本。

11

3.3 失败

其实对需要验证基因编辑结果的我们来说,只要不是单一或PCR样本杂交的峰图,统统都算失败。

12

4. 送样测序Tips

这部分内容在前系列有提过,在这里update我的Tips:

(1)在设计引物之时将产物大小固定在1000 bp以内,400-600 bp是个人最爱。原因是在起始位点附近以及1000 bp的长度之后测序不准确。以sgRNA结合位点为中心,向两边延伸300左右。在设计引物的时候固定引物出现的位置并限制产物长度,可以大大增加引物的满意度,一个小小的操作,结果却是大大的不同:

13

(2)PCR需要使用高保真酶,请一定要完整的阅读所买的DNA聚合酶的说明书,条件设置和debug什么的,还有谁会比官方更加清楚。以Q5高保真酶为例,其protocol后面的Tips高达十几条,包括不同模板使用的量、退火温度的计算、延伸时间的计算、引物浓度以及其他各种情况。只要不是引物设计出现问题,严格按照说明书操作,8kp的产物都轻轻松松P出来。

(3)建议PCR结束之后,一定要用琼脂糖验证PCR产物是否单一,小小一个步骤,省去大大的麻烦。

(4)不知为何PCR产物总是非常少,明明PCR条件一样,但是却有的sample能P出来,有些则不。可以适当怀疑一下PCR仪的加热问题,前阵子就遇到了这个情况,最后发现是PCR的加热孔加热不均匀(细心的记录下到底是哪一个孔的结果P不出来),遂果断弃用那台PCR仪,之后结果非常漂亮。

(5)胶回收也有技巧,有时候理解实验的原理能指导超出说明书的操作。例如胶回收试剂盒提出,要先称重DNA fragment所在的胶的重量,再按照重量加入1体积的binding buffer,binding buffer可以适当多加,融化充分才能更高的回收PCR产物。洗脱PCR产物时说明书的做法是incubate 2分钟,一般会增加到5分钟后再离心。

(6)先送PCR产物测序,如果拿到单峰条带,那就是纯合子;而如果拿到PCR样本杂合条带,则需要连接载体送测序。至少要得到这两种结果,才算合格。

最近在做干细胞分化,同一个protocol,即使是前人能做成功,自己未必做成功。所谓依样画葫芦,画出来的只是画而不是真的葫芦,我们需要的是自己去种出一个真葫芦。具体说来就是,师兄遇到过的坑,我一个都逃不掉,即使是提到过但由于自己没遇到过就根本无法体会。好好的干细胞分化,DZ师兄做得很漂亮,而我的细胞却在一夜之间衰老了。在我解决bug继续前行的时候,后面的小伙伴再次遇到和我一样的问题,真是天道好轮回,衰老饶过谁。

在这一段时间的分化实验过程中,发现了许多不一样的细节,比如:如何判定一个细胞的融合度,你看到的百分之百和别人的百分之百到底有何不同?怎么才算是将细胞消化下来了,你觉得的消化完成和别人的真的一样吗?这许许多多的主观意识的对细节的判断,虽很细小,却引起质的变化。做其他的事情也一样,就如今天,为何“峰图文件最能真实反映样本情况”,如果对这小小句子感兴趣,再结合自己已有知识去找到背后的原因,下一次再看峰图时,已不再认为它是一个简单的峰图,它是曾经闪烁过的“繁星”

上一篇下一篇

猜你喜欢

热点阅读