Gencode数据库
1. Gencode
1.1 The GENCODE Project: Encyclopædia of genes and gene variants
2003年,为了鉴定人类基因组序列所有功能元件,开始了ENCODE(the Encyclopedia Of DNA Elements)计划,2012年初步完成。
为了更好地整合基因feature,开始了GENCODE计划。包括人和小鼠的注释。包括编码蛋白基因(有不同的转录本)、非编码的loci、假基因。
Ensembl genome browser and the UCSC genome browser都能使用/链接GENCODE gene set.
1.2 How to access the data
gencode官网的链接
ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/
这个链接里面也有最新版的参考基因组
1.3 当前版本的统计
a. 这个只包含主要染色体
ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.annotation.gtf.gz
ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.primary_assembly.annotation.gtf.gz
我猜这个和上面那个注释文件信息是一样的
从这里可以看出,GENCODE其实提供了protein-coding gene, small/long ncRNA gene, 假基因等的位置注释。有的gtf文件可以直接下载到(见图1,比如lncRNA gtf),有的没有单独给gtf文件,而是将信息包含在主gtf中的第9列(比如miRNA)。
b. 这个是toplevel的
1.4 Gencode和ENSEMBL/NCBI/UCSC上的注释有什么差别?
- GENCODE最新版(Release 32)的注释就是ENSEMBL最新版的默认注释集(GRCh38.p13)。另外,GENCODE还提供了lncRNA, tRNA的gtf/gff文件,ENSEMBL上面没有这些单独的文件,它是将type信息全都放在第9列。
- 而USCS将GENCODE作为一个子集track:
- NCBI的注释是它自己的,叫“NCBI RefSeq”。在UCSC中也能下载这个子集track的gff/gtf。
2. 参考
http://blog.sciencenet.cn/blog-1113671-1152137.html
https://zhuanlan.zhihu.com/p/36275161