【块】生信上游-1 数据格式

2022-10-21  本文已影响0人  JamesMori

文章很多内容参考网上各处资源,整理出来方便学习

数据格式:作用主要是储存,tabix索引,浏览器展示

1.BCL: 测序下机文件格式

2.FASTQ

FASTQ files explained (illumina.com)
单向测序,demultiplex后一个样本一个fastq文件。双向测序一个样本两个fastq文件。

fastq文件示例
第一行:序列识别码
第二行:碱基序列
第三行:+分隔符
第四行:碱基质量分数(Phred +33 encoded),用ASCⅡ码表示数字

3.BED(Browser Extensible Data)

Genome Browser FAQ (ucsc.edu)
将对象展示在一条特征轴上,有点类似于常见的基因内部成分图

BED文件示例
BED作图
3行必需:对象的染色质编号、起始位点、终止位点
9行非必需:对象名称、灰度值、正反、加粗起点、加粗终点、RGB、分块数(可表示exons)、块大小、块起点

4.SAM(Sequence Alignment/Map):存储比对信息,兼容性强,支持多种测序和比对方式,是比对和下游分析的中间,可用于变异检测、基因型分析等。

The Sequence Alignment/Map format and SAMtools - PMC (nih.gov)
GitHub - samtools/hts-specs: Specifications of SAM/BAM and related high-throughput sequencing file formats
相关软件:Related Software (sourceforge.net)
分为header和比对区,header区有文件原始信息HD、参考序列SQ、测序片段分组RG、测序软件PG、其他文本CO。

SAM文件示例
比对区必需的有11列,tab分隔,分别为测序片段名称,FLAG,参考序列名,最左端在参考序列的位置,比对分数,CIGAR,下一个片段的主要比对序列,下一个片段的主要比对序列的位置,匹配到序列上的长度,匹配到的序列,phred-scaled quality
FLAG通过十进制转二进制描述该片段与序列的比对关系,CIGAR描述每个碱基的匹配情况

5.VCF( Variant Call Format):主要储存snp、cnv、indel以及结构变异等突变信息。

VCFv4.2.pdf (samtools.github.io)
Genome Browser VCF+tabix Track Format (ucsc.edu)

VCF文件展示
分为metadata,header,data lines
metadata以##开始,描述了一些自定义的表达方式,如INFO,FORMAT,FILTER。具体表示的内容可以与data lines参考理解,也可以看一下参考的链接文件。
data lines每一行是一个ref的突变位点,具体内容,有突变位置信息,突变信息,以及样本信息。
6.GFF3 and GTF
GFF3 - GMOD
GFF2 - GMOD
GTF2.2: A Gene Annotation Format (wustl.edu)
上一篇 下一篇

猜你喜欢

热点阅读