GEO

单基因搜索1——基因名

2020-12-23  本文已影响0人  谢某丶

单基因搜索

当我们想查询一个基因的相关信息或者检索一个基因,首先我们要了解我们需要什么,以下是个人经验总结,可能有不完善的地方希望大家指出
1. 基因名
2. 序列信息
3. 相关功能
4. 相关研究——文献调研
5. 富集分析

下面以SUPT4H1为例

基因名

一个基因可以有很多名字。各个大数据库都有自己一套命名规则,所以同一个基因在不同数据的ID形式是不一样的。常见的ID形式:gene ID、gene symbol、Ensemble ID

gene symbol:SUPT4H1

HGNC(人类基因命名委员会)只对人类基因进行命名。

HUGO Gene Symbol:HUGO Gene Symbol(也叫做HGNC Symbol,即基因符号)是HGNC组织对基因进行命名描述的一个缩写标识符(如:SUPT4H1),这些基因符号都是唯一的。

Gene Name:Gene Name是经过HGNC批准的全基因名称;对应于上面批准的符号(Gene Symbol)。例如SUPT4H1对应的Gene Name就是:SPT4 homolog, DSIF elongation factor subunit。

HGNC ID:HGNC ID是HGNC数据库分配的基因编号,每一个标准的Symbol都有对应的HGNC ID,例如:HGNC:11998 。我们可以用这个编号,在HGNC数据库中搜索相关的基因。有时候HGNC会对一些已经命名过的基因进行重新审查和重新命名,以确保新的基因命名在描述基因功能方面更加的准确。当一个基因被HGNC分配了新的Gene Symbol时,它之前的命名,会被当作同义词继续使用,所以一般建议使用HGNC ID而不是HGNC Symbol来作为我们处理数据中的唯一标识符。

Gene ID(Entrez ID)

Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。其实就是来自于ncbi里面的gene数据库。

每个基因的编号具有唯一性,包括不同种属生物间的同源基因编号也不相同,例如同样是TP53基因,人源TP53的Entrez ID为7157,zebrafish源的Entrez ID为30590,chichen源的Entrez ID为396200

关于gene数据库对于ID的注释。这个ID号只是代表基因。对于一个基因而言它会有不同的mRNA转录本,进一步的也会有不同的蛋白异构体。在gene数据库里面对于转录本和蛋白的编号是以NM和NP开头的。如果是NM的话则代表是转录本编号,如果是NP的话则是蛋白编号,还有非编码RNA(ncRNA)就是NR开头的。

Ensembl ID

关于Ensembl ID,不管是什么类型的,其ID号的前三个开头都是以ENS开头的。剩下的可以再看第四位:

ID号后面有一个.ID来代表不同的版本。所以就有了ENSGXXXX.1这样的编号。

查找ID相关信息

如果是人类gene,建议先去HGNC搜索该基因,如下

image-20201223115335015

进入详细页可以查看其Gene symbol,包括现在的曾经用过的symbol,以及它的一些别名。比如我们拿到一个基因symbol,有可能是曾用名,直接去检索文献就会有一定的偏倚和缺失。

image-20201223115731221

然后HGNC可以连接到几个大的核酸数据库,可以实时查看相关ID或者链接到数据库了解相关序列信息

image-20201223115904921

还有一些其他资源的链接,可以自行探索。

上一篇下一篇

猜你喜欢

热点阅读