funny生物信息网站工具比较与进化基因组学

Gencode数据库

2019-11-20  本文已影响0人  TOP生物信息
1. Gencode

官网:https://www.gencodegenes.org/

1.1 The GENCODE Project: Encyclopædia of genes and gene variants

2003年,为了鉴定人类基因组序列所有功能元件,开始了ENCODE(the Encyclopedia Of DNA Elements)计划,2012年初步完成。

为了更好地整合基因feature,开始了GENCODE计划。包括人和小鼠的注释。包括编码蛋白基因(有不同的转录本)、非编码的loci、假基因。

Ensembl genome browser and the UCSC genome browser都能使用/链接GENCODE gene set.

1.2 How to access the data

gencode官网的链接

ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human

ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/
这个链接里面也有最新版的参考基因组

1.3 当前版本的统计

a. 这个只包含主要染色体

ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.annotation.gtf.gz

ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.primary_assembly.annotation.gtf.gz
我猜这个和上面那个注释文件信息是一样的

https://www.gencodegenes.org/human/stats.html

从这里可以看出,GENCODE其实提供了protein-coding gene, small/long ncRNA gene, 假基因等的位置注释。有的gtf文件可以直接下载到(见图1,比如lncRNA gtf),有的没有单独给gtf文件,而是将信息包含在主gtf中的第9列(比如miRNA)。
b. 这个是toplevel的

ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.chr_patch_hapl_scaff.annotation.gtf.gz

1.4 Gencode和ENSEMBL/NCBI/UCSC上的注释有什么差别?
  1. GENCODE最新版(Release 32)的注释就是ENSEMBL最新版的默认注释集(GRCh38.p13)。另外,GENCODE还提供了lncRNA, tRNA的gtf/gff文件,ENSEMBL上面没有这些单独的文件,它是将type信息全都放在第9列。
  2. 而USCS将GENCODE作为一个子集track:

http://genome.cse.ucsc.edu/cgi-bin/hgTables

  1. NCBI的注释是它自己的,叫“NCBI RefSeq”。在UCSC中也能下载这个子集track的gff/gtf。
2. 参考

http://blog.sciencenet.cn/blog-1113671-1152137.html
https://zhuanlan.zhihu.com/p/36275161

上一篇下一篇

猜你喜欢

热点阅读