2019-12-08 Day7 基因测序原理

2019-12-11 本文已影响0人卅衣

测序过程和原理

第一代测序

Sanger测序原理
由于ddNTP的2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP，得到片段大小不一致的DNA混合物，然后通过凝胶电泳分离和放射自显影后识别确定待测分子的DNA序列。

image.png

二代测序

一代测序的原理我，没有PCR，利用聚合酶延伸链。这就有一个问题，酶的活性会下降，所以一代最长能测1000bp，再多了就要重头开始一遍导致成本高；另外它一次只测一条，也就是所谓的通量低。
Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。其中Illumina市场规模占到75%以上，主打Hiseq，下面👇就主要介绍他的PE（Pair End双端）测序原理：
flowcell：测序反应的载体/容器，1个flowcell有8个lane

lane：测序反应的平行泳道，试剂添加、洗脱等过程的发生位置
tile：每次荧光扫描的位置，肉眼是看不到的
双端测序：可能序列比较长有四五百bp，两边各测120-150bp
junction：双端测序中间一些没有测到的区域
flowcell构造：一个lane包含两列（swath），每一列有60个tile，每个tile会种下不同的cluster，每个tile在一次循环中会拍照4次（每个碱基一次）
边合成边测序（Sequencing by Synthesis，SBS）
在Sanger等测序方法的基础上，通过技术创新，用不同颜色的荧光标记四种不同的dNTP，当DNA聚合酶合成互补链时，每添加一种dNTP就会释放出不同的荧光，根据捕捉的荧光信号并经过特定的计算机软件处理，从而获得待测DNA的序列信息。

第三代测序技术

即单分子实时DNA测序。DNA测序时，不需要经过PCR扩增，实现了对每一条DNA分子的单独测序，凭借超长的读长和可直接检测表观修饰等特点使其成为市场的新宠。目前以Pacific Biosciences公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术为主流。

单分子测序技术原理SMRT技术：
也采用边合成边测序方法，以SMRT芯片为测序载体，芯片上众多小孔中的DNA聚合酶和模板结合，4色荧光标记4种碱基（dATP,dTTP,dCTP,dGTP)，在碱基配对阶段，加入不同碱基会发出不同的光，根据光的波长与峰值可判断进入的碱基类型。另外，若碱基存在修饰，则通过聚合酶的速度会减慢，因此可以通过检测相邻两个碱基之间的测序时间、两峰之间的距离来检测甲基化等碱基修饰情况。SMRT测序速度快（每秒约数个dNTP），但是，测序错误率也较高（达到15%，可通过多次测序进行有效的纠错）

数据初步分析：

使用fastqc进行质量分析，这是一款Java软件，支持多线程。
下载方式有两种：

官网下载好用filezilla导入linux服务器
直接在服务器中wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip

1.基因组学（核酸序列分析）
（1）全基因组测序（WGS）
（2）全外显子组测序（WES）
（3）简化基因组测序（RRGS）
①RAD-Seq
②GBS
③2bRAD
④ddGBS（也就是ddRAD）
作用：
（1）基因组作图（遗传图谱、物理图谱、转录本图谱）
（2）核苷酸序列分析
（3）基因定位
（4）基因功能分析
其它：
以全基因组测序为目标的结构基因组学
以基因功能鉴定为目标的功能基因组学

2.转录组学（基因表达分析）
（1）mRNA-Seq
（2）IncRNA-Seq（长链非编码RNA）
（3）sRNA-Seq（主要是miRNA-Seq）

image

作用：
（1）获得物种或者组织的转录本信息
（2）得到转录本上基因的相关信息，如基因结构功能等
（3）发现新的基因
（4）基因结构优化
（5）发现可变剪切
（6）发现基因融合
（7）基因表达差异分析
3.蛋白质组学
（1）蛋白质组数据处理、蛋白及其修饰鉴定
（2）构建蛋白质数据库、相关软件的开发和应用
（3）蛋白质结构功能预测
（4）蛋白质连锁图
4.代谢组学
（1）代谢物指纹分析
（2）代谢轮廓分析

常用数据格式

DNA序列表征
A =腺嘌呤 C =胞嘧啶 G =鸟嘌呤 T =胸腺嘧啶 U =尿嘧啶
R = GA（嘌呤） Y = TC（嘧啶） K = GT（酮） M = AC（氨基）
S = GC W = AT B = GTC D = GAT H = ACT V = GCA N = AGCT（任何）

Fastq格式：一种基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式,一般都包含有4行。
第一行：由‘@’开始，后面跟着序列ID和可选的描述，序列ID是唯一的；
第二行：碱基序列；
第三行：由‘+’开始，后面是序列的描述信息；
第四行：第二行序列的质量评价(quality value)。
举例：

image

Fasta格式：

image
1：以“>”为开头，fasta格式标志。
2：序列ID号，gi号，NCBI数据库的标识符，具有唯一性。
格式为：gi|gi号|来源标志|序列标志（接收号、名称等），若某项缺失可以留空，“|”保留。
3：序列描述。
4：碱基序列，序列中允许空格、换行、空行，一般一行60个。

Fastq文件→Fasta文件
Linux命令
法1：sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2：seqtk seq -A input.fastq > output.fasta

GenBank格式

以LOCUS和一些注释行开始。
序列的开头以“ORIGIN”标记，末尾以“//”标记。

EMBL格式

以标识符行（ID）开头，后面跟着更多注释行。
序列的开头以“SQ”开头标记，序末尾以“//”标记。
EMBL → Fasta格式转换（在线工具）：
http://www.geneinfinity.org/sms/sms_embltofasta.html