学习小组Day7笔记--59期(远方)
-
基因测序
- 第一代DNA测序:双脱氧链终止法。行业金标准,成本高,通量低,但是准确性高
- 第二代DNA测序:循环列阵测序法,成本底,illuminat公司的市场应用最多的,但错误率较高
- 第三代DNA测序:纳米孔单分子测序,不需要经过PCR扩增,可达二代的100倍,但错误率比二代更高
基因组学 包括全基因组测序WGS,全外显子组测序(WES),简化基因组测序(RRGS),主要作用是基因组作图,核苷酸序列分析,基因定位,基因功能分析
以全基因组测序为目标的结构基因组学,以基因功能鉴定为目标的功能基因组学
转录组学 mRNA-Seq,incRNA-Seq(长链非编码RNA) ,sRNA-Seq(主要是miRNA-Seq)
作用 :获得物种和组织的转录本信息,得到转录本上基因的相关信息,发现新的基因,基因结构优化,发现可变剪切,发现基因融合,基因表达差异分析
蛋白质组学:蛋白质组学数据处理,蛋白及其修饰鉴定;构建蛋白质数据框,相关软件和开发应用,蛋白质结构功能预测 蛋白质连锁图
代谢组学:代谢物指纹分析,代谢轮廓分析
3 基因测序数据格式
Fastq格式:保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘+’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价(quality value)。
Fasta格式:
1:以“>”为开头,fasta格式标志。
2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
3:序列描述。
4:碱基序列,序列中允许空格、换行、空行,一般一行60个。
Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
•一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
http://hannonlab.cshl.edu/fastx_toolkit/
GenBank格式
以LOCUS和一些注释行开始。
序列的开头以“ORIGIN”标记,末尾以“//”标记。
EMBL格式
以标识符行(ID)开头,后面跟着更多注释行。
序列的开头以“SQ”开头标记,序末尾以“//”标记。
EMBL → Fasta格式转换(在线工具):
http://www.geneinfinity.org/sms/sms_embltofasta.html
另外给大家介绍一个常见测序文件格式解析的网站:
https://genome.ucsc.edu/FAQ/FAQformat.html#format1