科研 博士1 生物信息学Bioinformatics

生信数据分析常见格式(一)

2018-09-12  本文已影响118人  Biofantasy

前言

首先,这篇文章介绍的文件格式格式:基因组fasta、测序数据fasta、基因组不同软件构建的索引文件index、fastq、sam、bam、bed、gtf、gff、vcf、bigwig、wiggle


image.png

| fasta格式:

测序数据fa格式:一般为fa.gz文件

## 文件格式可为   #.fasta  #.fa  #.fna  #.faa
##  >gi|  gi号   |来源标识|   序列标识     |    序列描述
    >gi|187608668 | ref | NM001043364.2 | Bombyx mori moricin(Mor),mRNA
    AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCT
    GGTGTCATGTAGTACAGCCGCTCC

基因组参考序列fa格式:

    fxue@pc-System-Product-Name:/public/reference/genome/hg38$ ls -lh
    total 3.1G
    -rwxr-xr-x 1 root root 3.1G 7月   5 00:42 hg38.fa
    -rwxr-xr-x 1 root root  19K 7月   4 23:59 hg38.fa.fai
## .fa文件内容  序列中有N 大写字母 小写字母
    >chr1
    NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
    CACCTCAGGAGCtgggggtggtggtgggggcggtgggggtggtgTTAGTA
    ......
    >chr10
    ......
    >chr11
    ......
    >chr11_KI270721v1_random
    ......
## .fa.fai文件内容 lie
##  编号       xx号          xx.     xx.    xx.     xx.     xx. 
    chr1    248956422       6       50      51
    chr10   133797422       253935564       50      51
    chr11   135086622       390408942       50      51
    chr11_KI270721v1_random 100316  528197322       50      51
    chr12   133275309       528299652       50      51
    chr13   114364328       664240475       50      51
    chr14   107043718       780892097       50      51
    chr14_GL000009v2_random 201709  890076715       50      51

| bowti构建的索引文件:

-rwxr-xr-x 1 root root 974M 7月   5 04:40 hg38.1.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:30 hg38.2.bt2
-rwxr-xr-x 1 root root  15K 7月   5 04:47 hg38.3.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:47 hg38.4.bt2
-rwxr-xr-x 1 root root  13K 7月   5 04:47 hg38.bowtie_index.log
-rwxr-xr-x 1 root root 974M 7月   5 04:21 hg38.rev.1.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:12 hg38.rev.2.bt2

| bwa构建的索引文件:

-rwxr-xr-x 1 root root  21K 7月   5 05:47 hg38.amb
-rwxr-xr-x 1 root root  22K 7月   5 05:47 hg38.ann
-rwxr-xr-x 1 root root 6.5K 7月   5 05:50 hg38.bwa_index.log
-rwxr-xr-x 1 root root 3.0G 7月   5 05:47 hg38.bwt
-rwxr-xr-x 1 root root 766M 7月   5 05:50 hg38.pac
-rwxr-xr-x 1 root root 1.5G 7月   5 05:37 hg38.sa

| hisat构建的索引文件:

-rwxr-xr-x 1 root root 974M 7月   5 03:13 genome.1.ht2
-rwxr-xr-x 1 root root 728M 7月   5 03:05 genome.2.ht2
-rwxr-xr-x 1 root root  15K 7月   5 03:13 genome.3.ht2
-rwxr-xr-x 1 root root 728M 7月   5 03:19 genome.4.ht2
-rwxr-xr-x 1 root root 1.3G 7月   5 03:37 genome.5.ht2
-rwxr-xr-x 1 root root 741M 7月   5 03:26 genome.6.ht2
-rwxr-xr-x 1 root root    8 7月   5 03:26 genome.7.ht2
-rwxr-xr-x 1 root root    8 7月   5 03:37 genome.8.ht2
-rwxr-xr-x 1 root root 1.3K 7月   5 03:37 make_hg38.sh

| salmon构建的索引文件:

fxue@pc-System-Product-Name:/public/reference/index/salmon/hg38_index$ ls -lhtotal 3.1G
-rwxr-xr-x 1 root root 1.7G 7月  14 21:50 hash.bin
-rwxr-xr-x 1 root root  357 7月  14 21:49 header.json
-rwxr-xr-x 1 root root  115 7月  14 21:52 indexing.log
-rwxr-xr-x 1 root root 9.4K 7月  14 21:52 quasi_index.log
-rwxr-xr-x 1 root root  121 7月  14 21:49 refInfo.json
-rwxr-xr-x 1 root root  36M 7月  14 21:52 rsd.bin
-rwxr-xr-x 1 root root 1.1G 7月  14 21:51 sa.bin
-rwxr-xr-x 1 root root 287M 7月  14 21:51 txpInfo.bin
-rwxr-xr-x 1 root root   96 7月  14 21:49 versionInfo.json

| star构建索引文件

| subread构建的索引文件:

-rwxr-xr-x 1 root root 766M 7月   5 06:27 hg38.00.b.array
-rwxr-xr-x 1 root root 5.0G 7月   5 06:45 hg38.00.b.tab
-rwxr-xr-x 1 root root  29K 7月   5 06:45 hg38.files
-rwxr-xr-x 1 root root    0 7月   5 06:45 hg38.log
-rwxr-xr-x 1 root root  14K 7月   5 06:27 hg38.reads

| fastq格式文件:

第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
第二行为序列信息
第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同

## 文件格式可为  #.fastq  #.fq
-rwxr-xr-x 1 root root     300308 7月   4 23:57 7E5240_L1_A001.L1_1_fastqc.html
-rwxr-xr-x 1 root root     401515 7月   4 23:57 7E5240_L1_A001.L1_1_fastqc.zip
-rwxr-xr-x 1 root root 2899602923 7月   4 23:57 7E5240_L1_A001.L1_1.fastq.gz
## 打开 7E5240_L1_A001.L1_1.fastq.gz
## @仪器号:运行号:flowcell ID号:Lane号:Tile号:X坐标:Y坐标  Read号:是否过滤:质控号:index序列
   @HISEQ: 820  :CBD38ANXX    :   1  :  1101 : 1233: 2135    1  :    N   :   0  : ATCACGA
   CTGAGCTGCTCCTTCACCCAGACCTCGATATGCTTGTTCCACTTCATGGTGAACACATAGAAGGCATAGGCCAGCAGCAGCAGNAGG
   +
   BBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF</<<<

| 基因组索引文件格式:gtf2文件

GTF(Gene Transfer Format)格式是借鉴于GFF2格式,也被称为GFF2.5,大部分字段的定义是和GFF2相同的,只是每行的第九列必须带有如下四个域,具体为gene_id value; transcript_id value; 这样的设计是为了适应一个基因的多个转录本这种情况。GTF格式主要用来注释基因:

[图片上传失败...(image-8d42c2-1536734614697)]

| gff3文件

gff主要用来注释基因组

序号 GTF GFF
1 Sequid 参考序列ID Seqname 序列名称 染色体ID/contig ID
2 Source 注释来源 指明产生此文件的软件或方法 Source 注释来源 预测软件名/公共数据库
3 Type 类型
4 Start 开始位点 从1开始计数 Start 开始位点 从1开始计数
5 End 结束位点 End 结束位点
6 Score 得分 Feature 结构特点
7 Strand 正/负链 Score 得分
8 Phase 步进 + 正链,- 负链, ·无需指定正负链 Strand 正/负链 + 正链,- 负链
9 Attributes 属性 frame 密码子偏移
##两种格式的转换
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

| SAM文件

SAM(sequence alignment/map format):由标头注释部分和比对部分组成

| sam标头注释部分
##  @HD,说明符合标准的版本、对比序列的排列顺序
    @HD VN:1.3                      SO:coordinate
    @SQ SN:chr10                    LN:135534747   ## LN:参考序列的长度
##  @SQ,参考序列说明
    @SQ SN:chr7_gl000202_random     LN:40103
    @SQ SN:chrUn_gl000249           LN:38502
    @SQ SN:chrX                     LN:155270560
##  @RG,比对上的序列(read)说明
##  @CO,任意的说明信息。
##  @PG,使用的比对程序说明
    @PG ID:bwa  PN:bwa  VN:0.7.15-r1140 CL:/home/jianmingzeng/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M /home/jianmingzeng/reference/index/bwa/hg19 control.clean.R1.fq.gz                           control.clean.R2.fq.gz
| 比对部分
##字段 [            1               ]  [2 ] [ 3 ] [ 4 ]  [5] [ 6  ] [ 7 ]  [   8   ] [ 9 ]
D00691:39:C7HGRANXX:7:1102:7445:18770  99  chr10  93614  60  126M    =     93621     133   D00691:39:C7HGRANXX:7:1102:7445:18770  147 chr10  93621  60  126M    =     93614     -133   
D00691:39:C7HGRANXX:7:2302:14294:49245 323 chr10  94741  5   56H70M  chr9  140136176 0    
##[        10.         ]  [                              11                             ]
CCAC...CCTC  BBBB...FFFF  NM:i:0  MD:Z:126  AS:i:126  XS:i:106  XA:Z:chr18,-75762,126M,4;
11个字段 名称 含义 解释
[1] QName 比对片段的编号
[2] Flag 常用&高效 保存多个布尔特征值
[3] Rname 比对到参考序列上的染色体号 若无法比对,则是*
[4] Position 比对上的位置 从1开始计数,未比对上则为0
[5] Mapq 比对的质量分数 越高说明该read比对到参考基因组上的位置就越准确
[6] Cigar 简要比对信息表达式 其以参考序列为基础,使用数字加字母表示比对结果。
[7] Mrnm(chr) 下一片段比对上的参考序列编号
[8] Mate position 下一片段比对上的位置
[9] Isize Template的长度 如果不可用,此处为0
[10] Sequence
[11]
[6] 解释 翻译
M match或 mismatch
I Insert
D Deletion
N Skipped
S Soft cliping
H Hard ciliping
P Padding
= Match
X Mismatch 错配,位置一一对应
[11] 解释 翻译
AS Alignment score generated by aligner 比对得分
NM Edit distance to the reference, including ambiguous bases but excluding clipping 对引用的编辑距离,包括不明确的基,但不包括剪切
MD String for mismatching positions. Regex : [0-9]+(([A-Z]|^[A-Z]+)[0-9]+)*10.
NH Number of reported alignments that contains the query in the current record
X? Reserved fields for end users

| bam文件

| bed文件

bed(Browser Extensible Data):是ucsc 的genome browser的一个格式,描述注释的数据。bed有3个要求的字段(基本列)和9个额外的字段(附加列)

#[1]    [ 2 ]   [ 3 ]   [5] 
chrM    13357   13651   trf 2   162.5   2   67  19  173 47  0   0   52  1.00    TA
chrM    13436   13585   trf 7   23.9    7   66  28  61  46  0   0   53  1.00    ATTATAA
chrM    13406   13658   trf 9   28.7    9   66  15  63  45  0   0   54  0.99    TATTATATT
## 可选列
#1 name #feature的名字
#2 score 0-1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定显示的灰度水平,数字越大,灰度越高
#3 strand定义链的+/—
#4 thickStart #feature的起始
#5 thickEnd #feature的终止
#6 termRgb R, G, B (eg. 255, 0, 0), 如果track line itemRgb属性是设置为'On”, 这个RBG 值将 决 定数据的显示的颜色在BED 线。
#7 blockCount #exon个数
#8 blockSize #每个exon的大小
#9 blockStarts #以chromStart为起点的各个exon的起始点

| Bigbed

| vcf文件

vcf(Variant Call Format):格式是用于表示突变信息的文本格式,可以用来表示SNV(single nucleotide variants),INDEL( insertions/deletions), CNV(copy number variants )and SV(structural variants)等。VCF格式同样是分为两大部分,一部分是注释描述信息,一部分是具体的突变信息,其中注释信息是以##开头的。

来源:samtools、GATK

应用:

#CHROM  POS ID      REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
chr1    873762  .       T   G   5231.78 PASS    AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL   0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   3931.66 PASS    AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   71.77   PASS    AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
chr1    974165  rs9442391   T   C   29.84   LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255
#1 CHROM 即chromosome, 染色体名称;
#2 POS 即position, 发生突变的参考序列的位置(从1开始计数);
#3 ID 突变的名称;
#4 REF 参考序列POS上的碱基;
#5 ALT 发生突变的碱基,多个的话以,连接, 可选符号为ATCGN*,大小写敏感;
#6 QUAL 基于Phred格式的表示ALT的质量,也可以理解为可靠性;
#7 FILTER 过滤后的状态,即按照可靠性进行筛选;
#8 INFO 额外信息,可结合注释描述信息进行理解

| Bigwig/Wiggle

https://wiki.bits.vib.be/index.php/Category:Formats
未完待续....

上一篇下一篇

猜你喜欢

热点阅读