测序原理

2021-03-20 本文已影响0人 lkj666

2021.3.9
持续更新中。。。
主要参考：生信曲线、基因学苑

1. 第一代测序（Sanger测序）

关键词：双脱氧测序、末端终止测序

1.1 正常DNA的合成过程

在模板链和引物存在的条件下，核糖体RNA分别将四种脱氧核糖酸(dNTP)运输至引物末端。然后按照碱基互补配对原则脱水形成5'-3'磷酸二酯键。

DNA正常合成过程

1.2 Sanger测序原理

使用链终止法，即向反应体系中同时加入脱氧核糖酸(dNTP)和双脱氧核糖(ddNTP)。两者均可随机整合到模板链上形成DNA，但是ddNTP由于缺少羟基（-OH），在整合到模板链条上，反应随机终止。利用ddNTP的这一特点，结合检测电泳条带或者利用光源信号传导即可获得序列。

ddNTP结合引物后不可继续反应

ddNTP随机结合产生不同长度的条带

每个体系分别电泳读取信号

利用光信号转换读取

1.3 Sanger测序优缺点

优点：

方法简单，准确率高，测序片段较长，一次可达1kb。

缺点：

成本高，通量低

2. 第二代测序（Illumina测序为例）

关键词：桥式PCR，可逆末端终止，高通量，边合成边测序

Illumina公司的Solexa和Hiseq两个系列的机器是目前全球使用量最大的第二代测序机器，为了获得完整的基因组，通常包括三个阶段：测序、短序列比对和序列拼接。

三大阶段

IIIumina测序数据的特点：读长短、具有一定的错误率、深度高、reads之间具有pairend关系

2.1 测序

根据测序的流程大致分为三步，测序完成得到原始数据在进入短序列拼接之前还会进行质量评估和控制等中间过程。

测序三大步

制备DNA基因组样本时，选择单倍体、样品的总量和DNA浓度OD需要达到要求，注意不要降解

2.1.1 第一步：构建基因文库

步骤一：利用超声波将待测的DNA样品打断成小片段，通常为500bp左右。
步骤二：修复小片段为平末端，进一步在平末端添加A碱基，形成黏性末端。
步骤三：在粘性末端添加adapter接头、测序引物、index标签等。

构建文库过程

最终文库形式

文库：就是DNA片段的一个集合，将测序片段打断之后就构成了一个文库，通常片段小于1kb的文库称为小片段文库(pairend)，大于1kb的文库称为大片段文库(matepair)。文库的大小又被成为insert size，可用于后续的拼接。

2.1.2 第二步：桥式PCR

步骤一：液体流过流动池(Flowcell)之后，单条DNA序列会被固定到流动池上。
步骤二：进行多次桥式PCR扩增。
步骤三：多余的DNA序列会被液体冲走，在流动池上留下一簇一簇相同的DNA单链。

Flowcell

桥式PCR大致流程

桥式PCR的目的是为了增大信号源，便于检测，其详细的原理可以参考：
Seurat_

2.1.3 第三步：测序

步骤一：向反应体系中加入DNA聚合酶、接头引物和带有碱基特异荧光标记的4种dNTP。
步骤二：合成第一个碱基后，不能正常进行后续反应.
步骤三：清除剩余未使用的碱基和试剂。
步骤四：激发碱基荧光并收集信号。
步骤五：去除第一碱基的阻断基团和荧光基团。
步骤六：循环进行步骤一至步骤五。

每条序列需要进行两次测序，正向引物完成测序之后，会被液体冲走，然后利用反向引物进行另一端的测序。

边合成边测序

双末端测序

读取信号类似于相同照片的叠加

2.1.4 测序饱和度评估

目的：推测测序所需要的最小数据量，理论上10倍数据量已经足够，但是实际上还存在其他误差，因此会高于这个数值。
理论最小值

2.1.5 数据质控

1. 两个指标

碱基含量分布：测序后的GC含量要和基因组GC含量相同。
碱基质量分布：Q20碱基百分比（一般要求在90%以上），Q30碱基百分比（一般要求在85%以上）

Q20指这个位点的碱基的错误率为百分之一，Q30为千分之一。

2. 用fastqc可以生成质量控制报告

质量报告对比

2.1.6 测数数据处理——过滤

非基因组序列。包括adapter接头、测序引物、index标签等。
N碱基过多的reads。通常N碱基的占比超过read的10%以上会被去除。
低质量reads。以Q20为标准，低于一定的Q20比率会被去除。
去除duplication。两对完全一致的reads会去除一对。

注：

pairend的reads只要有一条reads不满足条件，两条reads都需要去除。

在RNA-seq和16s测序过程中不能去除duplication，否则会丢失一些丰度信息。

2.2 测序拓展内容

2.2.1 大片段文库

实际上无论是大片段文库或者小片段文库，都无法完全测出一条read的全长。例如，Illumina构建的小片段文库为500bp，双末端测序一般只会测得两端各150bp左右的长度，中间的200bp是无法测得的。但是由于最初构建文库时是随机打断的，第一条read无法测序到中间的序列，后续的reads也会测得中间的序列。

1.png

1. 构建大片段文库的目的：
为了获得reads之间的物理距离关系，方便后续的序列拼接。
2. 大片段文库的测序过程：
步骤一：大片段两端加入带生物标记的序列进行环化处理。
步骤二：后续步骤和小片段文库测序类似

环化处理

大片段打断成小片段测序
3. pairend和matepair文库区别
测序的reads方向不一致，pairend相向，matepair相反。

pairend反向

matepair反向

2.2.2 测序注意事项

不能一次性测序完整基因组，因为PCR技术限制了读长，同时从样品中提取出的基因组很难保证完整性。
GC偏差会影响PCR，正常GC含量为35%~65%。
选择的文库大小和reads读长要协调；在Denove拼接过程中，先使用小片段文库，逐渐增大文库；
二代测序不能一直测下去，因为随着反应进行，后续的反应条件发生了变化；同时，在cluster过程中，由于碱基反应的步调不一致现象(phasing)，会导致误差。

2.3 短序列比对

短序列比对就是将过滤好的reads重新定位到基因组上，这个过程也叫回贴(mapping)。

回贴

2.3.1 短序列比对的四种情况

一对一，无错配

一对一，有错配

一对多，无错配

多对多，有错配

2.3.2 短序列比对的应用

1. 与自身基因组比对
1.1计算每个位点覆盖深度
1.2 计算参考序列覆盖比率
2. 与参考基因组比对
2.1 RNA测序计算基因表达量
2.2 变异检测
2.3 宏基因组测序计算不同生物的丰度

2.3.3 基因差异表达计算

1. 基因结构

基因结构

2. 成熟mRNA

成熟mRNA
3. 基因表达差异的指标
3.1 FoldChange，不同样本中同一个基因表达水平的变化倍数，即RPKM值的差值，差值越大，变化越大。
3.2 FDR矫正，FDR越小，差异约显著。

注：

转录起始位点位于启动区与5‘UTR非翻译区之间，翻译起始位点位于 CDS起始密码子。

RPKM值消除了基因长度和测序量差异对计算基因表达的影响，可直接用于比较不同样品间的基因表达差异（可变剪切用FPKM值）。

2.3.4 变异检测

单碱基的变换：转换、颠换、缺失、插入

2.3.5 物种组成和丰度计算

步骤一：16s序列长度为1.5kb左右，不能一次性测通，采用双末端测序得到不同的reads，质控过滤，不能去除duplication。
步骤二：将两条reads拼接成tags
步骤三：将不同的tags聚类成不同的OUT
步骤四：与16s数据库进行比对，设置阈值。

2.4 序列拼接

又称为de nove拼接，将测序得到的reads输入给拼接软件，利用reads间的overlap进行拼接。
目前序列拼接的算法有两种：一种是Overlap-Layout-Conesensus(常用于sanger等长片段拼接)，另一种是De bruijn graph(常用于illumina等短序列拼接)。但是本质都是基于序列间的overlap来进行拼接。

常见名词：

reads，测序直接得到的片段

pairend和matepair，文库大小

insertsize，物理长度

kmer，将reads切割成更小的固定片段

contig，通过kmer之间的overlap连接成更长的片段（有时也指reads连接成contig）

scaffold，contigs之间通过pairend关系，连接成更长的片段

2.4.1 kmer值估计基因组大小

1. kmer定义

kmer

取reads的kmer就取两次，正向取一次，反向互补会再取一次。

2. 利用kmer的分布图估计基因组大小

kmer分布图

2.4.2 基于德布莱英图(De bruijn graph)算法拼接

1. 构图（gregraph）
即切kmer（13-127之间的奇数），去除频数为1的kmer（kmer频数为1，那么相应的reads也只测得一次，这在高通量测序当中是几乎不可能的）
2. 构建contig
利用不同kmer大小的片段间的overlap形成一个德布莱英图，然后简化该图，理论上该图只有一个头部和尾部，但是由于测序过程中，存在重复区域等情况。实际形成的德布莱英图会有很多的头部和尾部。然后去除较短的分支，就形成了很多的contigs，contigs彼此之间没有overlap关系。

De bruijn graph

3. 构建scaffold

构建过程
通过reads之间的paired关系，将contig连接成更长的序列，就是scaffold。首先将测序的reads重新定位到contigs上，然后记录下pairend的比对情况。落在同一contig用于计算insertsize，落在不同contig用于构建scaffold。（例如：reads1比对到contig1的末尾150bp，reads2比对到contig2的起始150bp。而reads1和reads2之间的insetsize是500，那么contig1和contig2连接形成scaffold的过程中会有200bp的N碱基存在）

比对过程中要注意reads的方向问题

mapping

通常比对上不同contig的pairend要有三对以上才能确定物理位置关系，进一步连接成scaffold。

image.png

当基因组中重复序列过多时，pairend关系可能不足以确定contig之间的位置关系，此时需要用到matepair文库。

拼接的策略：首先用小片段文库，然后逐渐加入大片段文库。但是一般情况下很难得到一条完整的基因组序列。

特点
①scaffolds序列的方向并不一致，有的来自正义链，有的来自反义链（但都是5‘-3’）。
②scaffolds之间并没有位置关系，只是有的软件会按照大小顺序输出。
③scaffold里面可能存在N碱基，但是contig序列没有N碱基。

4. 补洞
基因组上的洞，即gaps，是由N碱基构成的。在由contigs形成scaffold过程中会产生gaps。

有关gap：

N碱基数目由insertsize确定，但是不完全准确

N碱基来自基因组复杂区域（重复，GC异常等区域），不容易拼接出来。

补洞策略
①利用sanger测序长片段补洞
②若N区域过大(超过2k)，可以用pacbio测序长片短补洞
③利用pairend关系补洞

3. 第三代测序

主要包括三种测序技术，分别利用了光信号、电信号和化学信号的转换

3.1 PacBio公司的SMAT

1. 原理概述
应用了边合成边测序的思想，以SMRT芯片为测序载体，DNA聚合酶和模板结合，用4色荧光标记 4 种碱基。在碱基配对阶段，不同碱基的加入，会发出不同光，根据光的波长与峰值可判断进入的碱基类型。保持酶活性，区别反应信号与周围游离碱基荧光背景是关键技术。

2. 特点
读长长，测序速度快，测序错误率较高，达到15%，但是出错是随机的，可以通过多次测序来进行有效的纠错。

3.2 Oxford公司的Nanopore

1. 原理概述
根据碱基所影响的电流变化幅度的不同，设计了一种特殊的纳米孔，孔内共价结合有分子接头。当DNA碱基通过纳米孔时，它们使电荷发生变化，从而短暂地影响流过纳米孔的电流强度，灵敏的电子设备检测到这些变化从而鉴定所通过的碱基，是一种基于电信号而不是光信号的测序技术。

2. 特点
读长很长，达到几十kb，甚至100kb，错误率在1%到4%之间，且是随机错误，通量较高，能够直接读取出甲基化的胞嘧啶。

3.3 Ion Torrent6

1. 原理概述
该技术使用一种布满小孔的高密度半导体芯片（一个小孔就是一个测序反应池）。当DNA聚合酶把核苷酸聚合到延伸中的DNA链上时，会释放出一个氢离子，从而引起反应池中的PH发生改变，位于池下的离子感受器将感受到氢离子信号直接转化为数字信号，从而读出DNA序列。
2. 特点
成本相对较低，操作简单，速度较快，但是通量不高。

4. 总结

不同测序平台的比较