人基因组在NCBI、UCSC、ENSEMBL、GENCODE、千

2021-10-06  本文已影响0人  笺牒九州的怪咖

1、人基因组在NCBI、UCSC、ENSEMBL、GENCODE数据库的版本对应

在用到人基因组相关信息时,经常用到的数据库有NCBI、UCSC、ENSEMBL。

NCBI的版本有GRCh36、GRCh37、GRCh38;

UCSC的版本有hg18、hg19、hg38;

ENSEMBL的版本就复杂多了,52/59/64/68/69/75/76/77/78/80/81/82.

上述三个数据库之间的对应关系大致如下:

首先是NCBI对应UCSC,然后对应ENSEMBL数据库

GRCh36 (hg18): ENSEMBL release_52.

GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.

GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

此外gencode数据库也可以下载不同版本的人基因组及其注释信息;

GENCODE数据库与NCBI、UCSC数据库的对应关系如下:

2、千人基因组数据库的基因组版本对应问题

1)GRCH37,b37,hs37d5(b37+decoy)与hg19的来源: hg19来自UCSC,GRCH37来自NCBI,b37来自千人基因组第一期,建议使用的是b37的升级版hs37d5,来源于千人基因组计划第二期,也是目前Broad正在使用的两个基于hg19的基因组版本之一(另一个版本无hs37d5,即decoy序列)。

2)GRCH37,b37和hs37d5的区别: 可以将hs37d5理解为b37的升级版,b37为GRCH37的升级版。b37在GRCH37的基础上进行命名和坐标系统规范,包括线粒体和GL开头的一些没有定位到基因组的序列;hs37d5在b37基础上增加了一条病毒序列(疱疹病毒),一条decoy序列(hs37d5,来自BAC或者质粒克隆等,没有具体的变异检测的作用,但是能增加比对率,以及提升正确的比对率),并且在Y染色体上把X,Y染色体的同源区mark 成了N。

3) hg19与hs37d5的区别: hg19与hs37d5的坐标系统一样,1-X,Y染色体碱基信息一模一样。区别是(不考虑scaffold的区别):

线粒体有差别(版本不一样,hs37d5用的是修正版的NC_012920,而hg19是老版的NC_001807),建议使用NC_012920(也有基于hg19更新线粒体信息的hg19基因组)。

UCSC参考基因组中有大小写碱基,小写表示在repeat区(Repeats from RepeatMasker and Tandem Repeats Finder)。

染色体编号表示不同,hg19带有chr,hs37d5直接是染色体编号

4)hs37d5和GRCH38(hg38)的区别: GRCH38是GRCH37的升级版,总体组装的碱基数量,基因的坐标位置等许多信息的更新,具体区别可参考

每次基因组版本的升级,比如从hg18到hg19,再到hg38,坐标系统已经不一样,所以分析过程中使用了某个基因组,去公共数据库查询频率,位置等信息时,都要对应到使用的参考基因组查询相关信息,才能保持信息的一致性。另外,如果需要,基因组坐标间也能通过LiftOver进行转换。

-----------------------------------------------------------------------------------I am a line !   Thanks !------------------------------------------------------------------------------------------------------------------------------------------------------------

上一篇下一篇

猜你喜欢

热点阅读