生信必备生物知识单细胞测序生信基础知识

生信基础知识复习之测序

2018-11-25  本文已影响127人  刘小泽

刘小泽写于18.11.25

每学习一遍之前的知识,总能从不同角度获取一些观点,然后扩增自己的知识库,这就是“知识迭代”

这次我也就是想到哪写到哪,把自己认为重要的内容梳理下,用Q&A的形式展示,没想到测序内容这么多,所以先当作第一部分吧

测序相关

Q1:生物体内的DNA的ATCG核苷酸是怎么转换成计算机识别模式的?

ATCG结构

首先要区分

这是ATCG的化学结构,其中A、G结构类似,属于嘌呤类;C、T(U)结构类似,属于嘧啶类,我们测序的目的就是区别这几种结构。人类基因组中有30亿个碱基,要想区分其中的四类碱基,一个个分析结构肯定不靠谱,于是想到了使用颜色进行区分,也就是“光信号”方法

利用光信号测序

Sanger测序、Illumina、454等都是利用光信号。

光信号方法就是要让每个碱基带上颜色,就需要给每种碱基带上特定的荧光基团,荧光基团在测序仪激光作用下被激发,发出的光被照相机记录下来,然后荧光基团失效,接着加下一个碱基(利用了illumina的“可逆阻断终止技术”,简而言之,就是:在碱基3‘端加一个阻断基团,当聚合成功之后,就不能在继续3‘端加其他碱基了,这时利用激光捕获荧光信号,之后切掉荧光基团和阻断基团,让下一个带荧光的碱基继续进行)。

另外还可以用“电信号” (例如英国牛津纳米孔公司ONT的MinION测序仪以及18年被illumina以12亿美金收购的太平洋生物公司的SMRT技术)。基本思想就是:4种碱基结构不同,带的电荷就不同,在聚合的过程中,让它们通过电极,产生不同的电信号,利用电信号来区分【不过这种测序装置的灵敏度要求要比光信号更严格,才可以检测微小的电信号差别】

然后要规模

早起Sanger测序是利用了“末端终止技术”,这样准确但是效率比较低,因此illumina开发了“边合成边测序”,每合成一次就可以读取一个碱基,并且合成越长,测序读长就越长。这种技术就需要利用PCR进行大规模的扩增,但是我们知道,PCR技术收到酶活性的影响是有合成限制的,不可能无限扩增下去,illumina给出的解决方案就是:“双末端测序” ,就是正向测一段,反向再测一段,这样就在PCR循环一定的情况下,增加了测序读长

Q2:测序的基本流程是怎样的?

以常用的illumina二代测序为例,大体分为:建库、cluster、测序三步

测序完成后并没有得到想要的ATGC碱基顺序,而是一堆照片,下面就是图像处理转换成有颜色的光点文件(二进制BCL文件,即basecalling),其中包括测序仪编号、run序号、lane序号、tile号、X/Y坐标、index、reads1/2、碱基序列、质量序列、是否通过质量过滤(1为通过;0表示质量差)

Q3:已经知道文库有大片段文库(1K以上)和小片段文库,文库多大就能测多大吗?另外测序是双端测150bp左右,那么中间还有一部分没有测到,这样会不会有问题?基因组上的这部分区域会被忽略吗?

首先,不管构建多大的文库,测序得到的都是两端很短的序列(比如双端150就是得到两个150bp的reads);

其次中间测不通并不会有问题,而且是非常正常的现象!因为文库构建是随机打断过程,所以即使第一条片段中间没有被测到也没关系,后面的其他片段一定能测到这中间的部分(因为一次测序过程会产生成百上千万条reads,而基因组就那么大)

另外,你可能会想:既然只能测两端很短的一部分,那么小片段和大片段文库的区别在哪?反正都测不完。其实,大片段文库的目的,除了得到序列以外,更重要的是,为了获取片段的坐标距离(即两条reads之间的物理距离关系,将会为序列拼接和基因组结构变异检测提供帮助) 。当然,目前大片段文库还有一些问题,比如现在PCR手段不能扩增太长的片段,另外我们只能测两侧的很短的片段,那么中间合成出来却不能测,造成了浪费

但是这些问题illumina给出了大片段文库的解决办法

在随机打断序列后,大片段比小片段文库多了一个环化处理,经过末端修复,再将一个线性长片段头部进行生物素标记,再进行环化(即:把片段首尾连接成一个环)【我们现在知道了:小片段文库是pair end; 大片段文库是mate pair
曾经我也是为这两个概念搞的头晕转向🥺

理解Mate pair

关于大小片段文库的差别:

大小片段文库的差别

Q4:为什么不能测完整的基因组?

理想的情况是:基因组有多大,我们就能测多大

但事实是:我们提取的DNA就不是完整的一整条,而是断成许多片段,比如10M基因组提取出来,可能也就剩一堆几百K的片段。现在可以做的就是对这些几百K的片段随机打断测序;另外,目前二代测序基本都依赖PCR扩增,因此限制了读长

Q5: 目前市面上一二三代测序并存,怎么选择?

存在即合理,因为没有任何一种测序技术能胜任任何工作,才会出现现在的局面。对于选择困难症患者来讲,一般可以从测序读长、通量、准确性、价格角度考虑

不同测序简单了解

所以也能理解,为什么illumina是目前的龙头,另外收购Pacbio后它在三代的市场又可以一展拳脚了

Q6: GC bias是什么意思?

基因组正常的GC含量是35-65%,如果小于35%或者大于65%就属于异常。我们知道AT是2个氢键连接,而GC是3个氢键,因此如果GC含量太高,在PCR过程中解链需要的能量更高,导致模版链更难打开,默认的温度下,DNA模版变性不完全;另外PCR产物难易结合到模版,DNA聚合酶也难以延伸,结果就是出现非特异性条带,不容易被扩增,因此也无从谈及测序,最后基因组覆盖不均匀,丢失部分信息

对于这样的样品,可以构建PCR-free文库 ,但需要更多样本量

Q7: 关于读长、插入片段大小的选择

我们知道了小片段测序文库中有多种规格可供选择,如:170bp、350bp、500bp、700bp等。读长的话,在保证准确性前提下,越长越好,有利于序列拼接。例如Miseq可以实现PE 300bp的读长,如果选择500bp文库和Miseq PE300(效果可以和454差不多了),那么中间就会有100bp重叠区域,发生了所谓的“片段测通”,可以利用这个区域将两个reads拼接起来,形成更长的序列。

文库大小需要和reads读长相协调,对于较短的测序片段,文库不能过大;对于De novo 拼接,可以先使用小片段文库,然后转为大片段文库,并逐级增加文库大小如2K、6K、10K、20K等【目的就是合理使用重叠区域进行逐级拼接】

Q8:为什么小片段文库如500bp需要两端分别测,而不能一次测通500bp呢?

利用PCR反应是可以实现的,就是一直扩增,把500bp全部测出来。不能这么做的一个因素是:PCR中DNA聚合酶的活性会下降,因此测序错误率会随着测序长度增加而增加 ;另外一个因素就是Phasing,按说cluster中所有片段都要保持同步,第一次大家都加第一个碱基,第二次都加第二个碱基… 但实际上,总有几个走的快或者走的慢(一次加两个碱基或者这一次一个碱基也没加),这些“离群”的碱基出来的荧光值就会带给整体干扰

Q9:不同的测序,不同的操作?

对于全基因组测序,就是按上面的测序步骤就好;

对于转录组测序,就需要考虑RNA反转录的问题,那么是先反转录再打断还是先打断后反转录呢? 其实比较高效的方法是:先反转录后打断。一般转录本比较短(小于2K),那么选择文库时就不能太大(比如,不能选800bp文库,因为2K的序列,打断成800,随机性不是很好),可以考虑小一些的文库(300左右)

另外还有很多测序类型:外显子组、甲基化、小RNA、宏基因组等


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇下一篇

猜你喜欢

热点阅读