数据整理到差异分析

BBQ(生信基础问题24-25):GTF,GFF是什么?

2019-02-11  本文已影响66人  liu_ll

  在上个BBQ的学习,我们已经进入到了转录组的相关学习,简单的了解到了它和基因组的比对上的差异。接下来在转录组的分析中,有一个文件非常重要,它就基因注释文件,通常是GFF或者是GTF文件,那么他们到底是什么呢?有什么区别嘛?
一:基本介绍
  前面说到从DNA到蛋白质,需要经过转录和翻译。但是在转录的过程一般会经历可变剪接。所以在进行转录组的序列比对的时候,需要处理跨外显子之间的reads。这时候,我们需要一个文件来告诉哪些地方是基因的外显子区域或内含子区域。以及这个基因本身的一些属性。
  这个文件就叫基因注释文件

GTF=General Transfer Format
GFF=General Feature Format

GFT文件示意图
参照着ensembl网站的说明文件(GFF/GTF File Format)。

首先这个文件里的内容是用Tab分割,每一个列都必须要有一个值,如果是空的就用'.'来代替。
1:序列名字,染色体或者是scaffold的名字,可有或者没有“chr”。但是需要和genome FASTA文件中的染色体名对应。
2:数据的来源,可以是ENSEMBL,NCBI等
3:基因的注释类型,如外显子,内含子等等
4:起始的位置,序列的位置是从1开始的
5:终止的位置
6:打分值:一个浮点数
7:匹配到的是正链(+)还是负链(-)
8:匹配到的密码子的位置,有0,1,2三个数字,如果是1的话则匹配到了2个密码子。
9:以分号分割的,提供了附加的信息

---------------------------------------------------分割线------------------------------------
二:如何下载基因注释文件呢?
UCSC genome browser (UCSC Genome Browser-网址链接

2.1 从UCSC genome browser下载human的GTF文件的步骤:
(1). 打开UCSC genome browser网站
(2). 在Tools里选择 Table Browser
(3). 打开Table Browser以后,设置相关的需要内容
(4). 点击get output即可下载
(ps:hg19 = human genome 19是常用的human参考基因组版本号;
RefSeq gene是全部经过人工检查过的gene注释文件;)


UCSC genime browser网站
在tool里面点Table Browser
设置相关参数

2.2 Ensembl下载human的GTF文件

是Ensembl(Ensembl 网址链接

  1. 登陆Ensembl网站,并跳转到hg19版本界面
  2. 继续选择跳转到hg19版本界面
  3. 在hg19版本的Ensembl界面中选择download
  4. 在download页面中选择Download a sequence or region
  5. 在左边栏选择 FTP download 然后选择下载 GTF文件
  6. 选择注释好的GTF进行下载


    Ensembl网站,跳转到hg19界面
    进入到hg19的界面
    点击download
    点击下载
    下载压缩包

--------------------------------------------------分割线------------------------------------
三:提问环节
3.1:你认为GTF/GFF的文件格式设计合理吗?为什么?
(ps:认识比较浅,大家参照一些孟大的参考解答)


3.1答1
3.1答2
  1. 如果告知,transcript_id为NM001308203.1,gene_id为SGIP1, 在转录本上的坐标为101,那么对应基因组的坐标是多少?请写出答案与简要程序思路。注释信息如下:
chr1    hg19_ncbiRefSeq exon    66999252    66999355    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq start_codon 67000042    67000044    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67000042    67000051    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    66999929    67000051    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67091530    67091593    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67091530    67091593    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67098753    67098777    0.000000    +   1   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67098753    67098777    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67105460    67105516    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67105460    67105516    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67108493    67108547    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67108493    67108547    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67109227    67109402    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67109227    67109402    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67136678    67136702    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67136678    67136702    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67137627    67137678    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67137627    67137678    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67138964    67139049    0.000000    +   1   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67138964    67139049    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67142687    67142779    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67142687    67142779    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67145361    67145435    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67145361    67145435    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67154831    67154958    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67154831    67154958    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67155873    67155999    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67155873    67155999    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67160122    67160187    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67160122    67160187    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67184977    67185088    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67184977    67185088    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67194947    67195102    0.000000    +   1   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67194947    67195102    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67199431    67199563    0.000000    +   1   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67199431    67199563    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67205018    67205220    0.000000    +   0   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67205018    67205220    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67206341    67206405    0.000000    +   1   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67206341    67206405    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67206955    67207119    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67206955    67207119    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq CDS 67208756    67208775    0.000000    +   2   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq stop_codon  67208776    67208778    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1    hg19_ncbiRefSeq exon    67208756    67216822    0.000000    +   .   gene_id "SGIP1"; transcript_id "NM_001308203.1";

我们知道转录本的坐标101,那么在基因组上其end-start>101才可能。第一个坐标是6699355-66999252+1=104,这个转录本是mapping到这个exon上的,其位置是6699355+101-1=6699455
3: 下载这两个文件解压缩以后的大小是否有差异,差异大不大?


下载信息
解压信息

4:用less命令看一下两个问题,观察transcripid, geneid是否相同,再看看别的地方是否一样?
这两个文件的transcrip_id和gene_id均不一样,Ensemblxiazai de you ENSC开头,而UCSC开始的有NM开头。Ensembl注释的信息更全面一些。

Ref:
1: 生物信息学100个基础问题 —— 第24题 GFF,GTF到底是什么?
2:生物信息学100个基础问题 —— 第25题 GTF/GFF的注释是怎么来的,应该从哪里下载?
3:https://genome.ucsc.edu/index.html
4:http://asia.ensembl.org/index.html

上一篇下一篇

猜你喜欢

热点阅读