Day7_测序知识
测序过程和原理
测序原理:
一代测序(Sanger测序):
(1)目前一代测序在验证序列(就是平时送公司测序返回来自己blast的那些)以及验证基因组组装完整性方面都是金标准。
(2)一代最长能测1000bp,
(3)它一次只测一条,也就是所谓的通量低
(4) 准确度很高,99.999%
NGS (next generation sequencing )二代测序,又称下一代测序:
名词:
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端测序中间一些没有测到的区域
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
边合成变测序(sequence by synthesis, SBS)~合成
第一步: 构建DNA文库
第二步: 上样
三步:桥式PCR
第四步:测序
数据初步分析:
使用fastqc进行质量分析,这是一款Java软件,支持多线程
软件前期准备:下载方式有两种:
1.官网 http://www.bioinformatics.babraham.ac.uk/projects/fastqc/下载好用filezilla导入linux服务器
2. 直接在服务器中wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
接着安装unzip fastqc_v0.11.7.zip --> cd FastQC -- > chmod755 fastqc (这一步开始报错,找不到chmod命令,用conda安装后,还是找不到,which chmod,发现chmod在bin/下,目前还未解决这个问题)
设置完权限后,还需要将FastQC文件夹(这里请注意是文件夹,而非fastqc这个可执行程序)导入环境变量
echo 'export PATH=/YOUR/FASTQC PATH/:$PATH' >> ~/.bashrc
再source ~/.bashrc检查软件是否安装成功 fastqc --help 出现帮助信息就可以使用啦!
二代测序大幅度提高了测序速度,降低了测序成本,保持了高准确性。缺点是读长短,拼接困难,pcr技术增加了测序的错误率.
三代测序(TGS)
第三代测序技术以PacBio公司的SMRT和Oxford Nanopore Technologies 的纳米孔单分子测序技术为标志,不需要经过PCR扩增,超长读长,可达二代测序的100倍以上,实现了对每一条DNA分子的单独测序。错误率比二代要高,达到10-15%。
三代测序错误随机,平均读长8 ~25kb ,相对于二代而言,测序成本偏高,同时测序错误率偏高。
名词优化结构
1.基因组学(核酸序列分析)
(1)全基因组测序(WGS)
(2)全外显子组测序(WES)
(3)简化基因组测序(RRGS)
①RAD-Seq ②GBS ③2bRAD ④ddGBS(也就是ddRAD)
作用:(1)基因组作图(遗传图谱、物理图谱、转录本图谱)(2)核苷酸序列分析
(3)基因定位(4)基因功能分析
其它: 以全基因组测序为目标的结构基因组学;以基因功能鉴定为目标的功能基因组学
2.转录组学(基因表达分析)
(1)mRNA-Seq
(2)IncRNA-Seq(长链非编码RNA)
(3)sRNA-Seq(主要是miRNA-Seq)
作用:
(1)获得物种或者组织的转录本信息(2)得到转录本上基因的相关信息,如基因结构功能等
(3)发现新的基因(4)基因结构优化(5)发现可变剪切(6)发现基因融合 (7)基因表达差异分析
3.蛋白质组学
(1)蛋白质组数据处理、蛋白及其修饰鉴定
(2)构建蛋白质数据库、相关软件的开发和应用
(3)蛋白质结构功能预测
(4)蛋白质连锁图
4.代谢组学
(1)代谢物指纹分析
(2)代谢轮廓分析
测序技术原理及常用数据格式简介
1. 第一代测序技术
特点:读长长(1000 bp),准确性高(99.999%),通量低。
2. 第二代测序技术
(1)DNA文库构建 (2 ) 簇的生成——桥式PCR (3)测序(4)数据产出
特点:通量高、时间短、读长短。
3. 第三代测序技术
单分子实时DNA测序。
(1)PacBio 实时单分子测序
(2)Complete Genomics公司的复合探针-锚定连接技术
(3)Oxford Nanopore 纳米孔单分子通道技术
(4)Ion Torrent电子流检测技术
Pacific Biosciences公司的SMRT技术: SMRT测序速度快(每秒约数个dNTP),但是,测序错误率也较高(达到15%,可通过多次测序进行有效的纠错)。
Oxford Nanopore Technologies公司的纳米孔单分子技术为主流。
常用数据格式
1. Fastq格式
一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘+’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价(quality value)。
Fasta格式:
(1)以“>”为开头,fasta格式标志。
(2)序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
(3)序列描述。
(4)碱基序列,序列中允许空格、换行、空行,一般一行60个。
格式见间的转化:Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
http://hannonlab.cshl.edu/fastx_toolkit/
GenBank格式
以LOCUS和一些注释行开始。序列的开头以“ORIGIN”标记,末尾以“//”标记
EMBL格式
以标识符行(ID)开头,后面跟着更多注释行。
序列的开头以“SQ”开头标记,序末尾以“//”标记。
EMBL → Fasta格式转换(在线工具):
http://www.geneinfinity.org/sms/sms_embltofasta.html
另外给大家介绍一个常见测序文件格式解析的网站:
https://genome.ucsc.edu/FAQ/FAQformat.html#format1 (包含了各种各样的测序文件格式说明)