学习小组Day7笔记--strengthen

2020-10-19 本文已影响0人 strengthen_1552

课程的最后一天了，先感谢花花老师耐心的教授，让我对生信有了一定的了解，虽然以后学习过程依旧是路途漫漫，但指引方向的人最可爱^-.

测序技术

到目前为止测序技术一共经历三次更新个，主要特点是测序数据量越来越大，所用时间越来越快，测序费用越来越廉价。伴随着计算机技术的发展，我们所能挖掘到的数据信息也越来越全面。

第一代测序技术

由于ddNTP的2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP，得到片段大小不一致的DNA混合物，然后通过凝胶电泳分离和放射自显影后识别确定待测分子的DNA序列。

第二代测序技术

边合成边测序（Sequencing by Synthesis，SBS）
在Sanger等测序方法的基础上，通过技术创新，用不同颜色的荧光标记四种不同的dNTP，当DNA聚合酶合成互补链时，每添加一种dNTP就会释放出不同的荧光，根据捕捉的荧光信号并经过特定的计算机软件处理，从而获得待测DNA的序列信息。

第三代测序技术

即单分子实时DNA测序。DNA测序时，不需要经过PCR扩增，实现了对每一条DNA分子的单独测序，凭借超长的读长和可直接检测表观修饰等特点使其成为市场的新宠。
也采用边合成边测序方法，以SMRT芯片为测序载体，芯片上众多小孔中的DNA聚合酶和模板结合，4色荧光标记4种碱基（dATP,dTTP,dCTP,dGTP)，在碱基配对阶段，加入不同碱基会发出不同的光，根据光的波长与峰值可判断进入的碱基类型。另外，若碱基存在修饰，则通过聚合酶的速度会减慢，因此可以通过检测相邻两个碱基之间的测序时间、两峰之间的距离来检测甲基化等碱基修饰情况。SMRT测序速度快（每秒约数个dNTP），但是，测序错误率也较高（达到15%，可通过多次测序进行有效的纠错）。

测序数据的格式

一般为Fastq 和Fasta格式，也包括GenBank 和 EMBL

Fastq格式

一种基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式,一般都包含有4行。
第一行：由‘@’开始，后面跟着序列ID和可选的描述，序列ID是唯一的；
第二行：碱基序列；
第三行：由‘+’开始，后面是序列的描述信息；
第四行：第二行序列的质量评价(quality value)。
@HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG
HISEQ：仪器 ID
777：Run ID
HCMCVBCX2：FlowCell ID
1：The lane number
1101：流通池道内的tile号码
4712：瓦片中的集群的‘x'坐标
2186：瓦片中的集群的’y'坐标
1：成对的成员，1或2（配对结束或配对读取）
N：如果读取过滤，则为Y；否则为N
0：当没有控制位开启时为0，否则为偶数
TACTCCAG：索引序列

Fasta格式

1：以“>”为开头，fasta格式标志。
2：序列ID号，gi号，NCBI数据库的标识符，具有唯一性。
格式为：gi|gi号|来源标志|序列标志（接收号、名称等），若某项缺失可以留空，“|”保留。
3：序列描述。
4：碱基序列，序列中允许空格、换行、空行，一般一行60个。

Fastq文件→Fasta文件
Linux命令
法1：sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2：seqtk seq -A input.fastq > output.fasta

FASTX-Toolkit
•一款用于处理Short-Reads FASTA/FASTQ文件的程序，里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
http://hannonlab.cshl.edu/fastx_toolkit/

GenBank格式

以LOCUS和一些注释行开始。
序列的开头以“ORIGIN”标记，末尾以“//”标记。

EMBL格式

以标识符行（ID）开头，后面跟着更多注释行。
序列的开头以“SQ”开头标记，序末尾以“//”标记。
另外生信星球推荐了两款在线工具用于处理序列数据
1.EMBL → Fasta格式转换（在线工具）：
http://www.geneinfinity.org/sms/sms_embltofasta.html
2.常见测序文件格式解析的网站：
https://genome.ucsc.edu/FAQ/FAQformat.html#format1

测序知识1.jpeg