学习小组Day7笔记--杨柳松

2019-05-13 本文已影响3人杨柳松_73d6

区分一二三代测序（引自生信星球）

早期测序（Sanger测序）

设置四个反应体系1-4，分别加入引物、DNA聚合酶、四种dNTP、一定比例的ddNTP（带有放射性标记）。
假如扩增过程中ddATP遇到了T位点，就结合并终止（因为ddNTP的2‘和3'都没有羟基），那么其他的dNTP就无法结合。在一个大规模样本中，ddNTP会结合所有位点，只是位点结合次数多少的问题。
最后利用凝胶电泳和放射自显影只能看到带有荧光标记的ddNTP，他们的排列顺序先利用电泳条带前后关系确定下，再用A-T, T-A, C-G, G-C关系反转一下，就能知道我们的测序序列。

优点：准确率高；缺点：通量低、成本高

二代测序
循环阵列合成测序（NGS）

主要平台有：
　　1.罗氏454公司的GS FLX sequencer
　　2.Illumina solexa genome analyzer
　　3.ABI公司的SOLiD sequencer

优点：提高速度、降低成本、保持高准确性；缺点；读长短、拼接困难，错误率增加

三代测序

PacBio公司的SMRT
Oxford Nanopore Technologies

优点：不需要经过PCR扩增，超长读长，可实现了对每一条DNA分子的单独测序；缺点：错误率高，达到10-15%。

二代测序的大体流程（引自生信星球）

flowcell：测序反应的载体/容器，1个flowcell有8个lane
lane：测序反应的平行泳道，试剂添加、洗脱等过程的发生位置
tile：每次荧光扫描的位置，肉眼是看不到的
双端测序：可能序列比较长有四五百bp，两边各测120-150bp
junction：双端测序中间一些没有测到的区域
flowcell构造：一个lane包含两列（swath），每一列有60个tile，每个tile会种下不同的cluster，每个tile在一次循环中会拍照4次（每个碱基一次）

流程：
1.构建DNA文库：超声波将DNA分子打断成300-800bp长序列片段，构成单链DNA文库。
2.上样：lane上随机分布两种接头，p5‘（与P5互补），P7（与P7'互补），待测序列自带了p5接头和p7接头
3.桥式PCR：

第一轮扩增模版：flowcell表面固定的序列 --> 模版链，序列互补成双链
去杂：加入NaOH强碱性溶液使双链DNA变性
桥式形成：加入缓冲溶液，互补链的p7‘和lane上的p7互补
桥式PCR： PCR弯成桥状，一轮桥式扩增一倍
循环：大约35个循环后，最终每个DNA片段都将在各自的位置上集中成束，称为cluster，这是一群完全相同的序列。
解链：桥式PCR完成后，形成了很多的桥形的互补双链，再次强碱解链。

4.测序：一次加一个荧光碱基，用完失效
5.数据产生：图象校正、cluster识别、荧光校正、化学校正、碱基识别、PF（Illumina默认的数据过滤算法Pass Filtering）、质量评估
6.数据初步分析：使用fastqc进行质量分析
下载与安装fastqc:

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
mkdir FastQC
unzip fastqc_v0.11.7.zip
cd FastQC
chmod 755 fastqc
echo 'export PATH=/YOUR/FASTQC PATH/:$PATH' >> ~/.bashrc
source ~/.bashrc
fastqc --help

fastqc使用过程常用代码：
基本格式：fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] seqfile1 .. seqfileN
生成的报告文件的储存路径：-o output dir
让程序不打包：--extract
选择程序运行的线程数：-t --threads
安静运行模式：-q

结果分析：
检查数据完整性：md5sum *.gz
质控文件：fastqc *.gz -t 4
导出结果：filezilla

测序技术

学习小组Day7笔记--杨柳松

区分一二三代测序（引自生信星球）

二代测序的大体流程（引自生信星球）

猜你喜欢

热点阅读