Linux_learning生物信息学与算法BioStat

BBQ(生信基础问题26):GTF/GFF3? 什么是RefSe

2019-03-01  本文已影响34人  liu_ll

  好久没有更新了,BBQ开始继续更新啦~今天的BBQ关注的是基因注释这一块,举个例子来说,分析转录组,我们得到了一系列的基因的list,我们如何注释这些基因呢?



1:常见的基因注释的数据库

  常用的gene注释有不同的来源,这个来源一般是某一个组织通过一定的方法来确定下来的参考gene的相关注释信息。比如常用的有:

  1. RefSeq Gene注释 ; 来自于NCBI,对gene的不同转录本进行注释,1个转录本对应1个编号成为RefSeq id,例如对于可以翻译成蛋白的转录本,都会以NM_开头如NM_015658;对于不能翻译的转录本,都会以NR_开头如NR_027055;不同注释的情况如下图(ps:注释的数据库来源不一样,编号不一样)
    README.txt截图
  2. Ensembl注释;对gene的不同转录本进行注释,以ENSG开头的表示Ensembl gene_id如ENSG00000227232,以ENST开头的表示Ensembl transcript id如ENST00000438504.
  3. UCSC gene注释;对gene的不同转录本进行注释,一般是类似uc004cpf这样的名称。
Q: 这里有三种注释,那么哪种注释会更好点呢?
A:没有绝对的好坏之分,都是很详细的
2: RefSeq Gene

1:首先我们来打开官网 看一下~
我们可以看到如果想找到基因/蛋白/mRNA的注释可以直接从FTP下载,从RefSeq的官方网站上可以下载到常见物种的参考序列信息。

README.txt里面有的物种信息
不过呢,这里面还是human的信息注释得最为全面。关于里面注释的信息~
2:我们这里以人类的数据为例:
官网,点击Human Genomic Resource and Download
3:点击之后进入官网,然后我们可以有不同的版本,GRCh38和GRCh37(这版本就是Hg19)
Human Genome Resources
4: 点击Gff3下载就可以了
如果是在系统的话可以用wget下载
###这个是下载到了当前目录下了
wget ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh37_latest/refseq_identifiers/GRCh37_latest_genomic.gff.gz  ./ 

下载了之后然后解压就可以看到里面的内容了:关于内容格式的话可以参照一下这个:
BBQ(生信基础问题24-25):GTF,GFF是什么?

gff3的内容

我们来看一下今天的问题:
尝试下载hg19的GFF3文件,并简单比较GFF3与GTF文件的不同?

GFT文件
我们对比一下上面和下面两个注释的情况,我们可以得到一下几个不一样:
1:第一列不一样,对于gft来说,第一列是染色体的编号(会有带chr和不带chr的情况),而对于gff3来说,第一列是指出注释的对象。会以NC开头
2:对于gff3,第二列会说这个注释的来源信息是什么,而gft没有。
3:GTF每行的第九列,有四列基本的信息如下:分别是gene_idgene_name, gene_source,gene_biotype GTF (PS:如果是可以转录的话,携带的信息会多:如transcript_id,exon_number,transcript_source, exon_id等信息)
gft的最后一列注释信息

4:但是对于GFF3的话,最后一列不同而且信息会更完善一点:(挑有用的说一下,感觉有的注释没啥用)
ID:GFF3文件中的标识符
Dbxref :相当于可以查询的基因ID(A database cross reference.)
Parent,表明该feature所属的上一级feature 的ID,这种关系可用于exons-transcripts,transcripts-genes,可以看出一个feature可以拥有多个子feature
Genebank ,是说在genebank里面的编号
Product, 这个基因的产物,会简单的说明功能(如果还没明确的功能的话就没有简单的功能介绍)
transscript_id, 转录本的编号NR开头
pseudo 是不是假基因,如果是会写true

GFF3的标注信息

Ref:
1:生物信息学100个基础问题 —— 第26题 什么是RefSeq Gene? 怎么给NCBI反馈问题?
(这个专栏里还有写如何给NCBI写信报错的步骤,需要的可以参考一下~)
2:https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml
3:http://gmod.org/wiki/GFF3
4:https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md

上一篇下一篇

猜你喜欢

热点阅读