学习小组Day7笔记--59期（远方）

2020-05-24 本文已影响0人远方_fcf5

基因测序
- 第一代DNA测序：双脱氧链终止法。行业金标准，成本高，通量低，但是准确性高
- 第二代DNA测序：循环列阵测序法，成本底，illuminat公司的市场应用最多的，但错误率较高
- 第三代DNA测序：纳米孔单分子测序，不需要经过PCR扩增，可达二代的100倍，但错误率比二代更高

基因组学包括全基因组测序WGS，全外显子组测序（WES），简化基因组测序（RRGS），主要作用是基因组作图，核苷酸序列分析，基因定位，基因功能分析
以全基因组测序为目标的结构基因组学，以基因功能鉴定为目标的功能基因组学

转录组学   mRNA-Seq,incRNA-Seq(长链非编码RNA)  ,sRNA-Seq(主要是miRNA-Seq)

作用：获得物种和组织的转录本信息，得到转录本上基因的相关信息，发现新的基因，基因结构优化，发现可变剪切，发现基因融合，基因表达差异分析

蛋白质组学：蛋白质组学数据处理，蛋白及其修饰鉴定；构建蛋白质数据框，相关软件和开发应用，蛋白质结构功能预测蛋白质连锁图

代谢组学：代谢物指纹分析，代谢轮廓分析

3 基因测序数据格式

Fastq格式：保存生物序列（通常是核酸序列）和其测序质量信息的标准格式,一般都包含有4行。
第一行：由‘@’开始，后面跟着序列ID和可选的描述，序列ID是唯一的；
第二行：碱基序列；
第三行：由‘+’开始，后面是序列的描述信息；
第四行：第二行序列的质量评价(quality value)。

Fasta格式：
1：以“>”为开头，fasta格式标志。
2：序列ID号，gi号，NCBI数据库的标识符，具有唯一性。格式为：gi|gi号|来源标志|序列标志（接收号、名称等），若某项缺失可以留空，“|”保留。
3：序列描述。
4：碱基序列，序列中允许空格、换行、空行，一般一行60个。

Fastq文件→Fasta文件
Linux命令
法1：sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2：seqtk seq -A input.fastq > output.fasta

FASTX-Toolkit
•一款用于处理Short-Reads FASTA/FASTQ文件的程序，里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
http://hannonlab.cshl.edu/fastx_toolkit/

GenBank格式
以LOCUS和一些注释行开始。
序列的开头以“ORIGIN”标记，末尾以“//”标记。

EMBL格式
以标识符行（ID）开头，后面跟着更多注释行。
序列的开头以“SQ”开头标记，序末尾以“//”标记。

另外给大家介绍一个常见测序文件格式解析的网站：
https://genome.ucsc.edu/FAQ/FAQformat.html#format1

测序.png