单基因搜索1——基因名
单基因搜索
当我们想查询一个基因的相关信息或者检索一个基因,首先我们要了解我们需要什么,以下是个人经验总结,可能有不完善的地方希望大家指出
1. 基因名
2. 序列信息
3. 相关功能
4. 相关研究——文献调研
5. 富集分析
下面以SUPT4H1为例
基因名
一个基因可以有很多名字。各个大数据库都有自己一套命名规则,所以同一个基因在不同数据的ID形式是不一样的。常见的ID形式:gene ID、gene symbol、Ensemble ID
gene symbol:SUPT4H1
HGNC(人类基因命名委员会)只对人类基因进行命名。
HUGO Gene Symbol:HUGO Gene Symbol(也叫做HGNC Symbol,即基因符号)是HGNC组织对基因进行命名描述的一个缩写标识符(如:SUPT4H1),这些基因符号都是唯一的。
Gene Name:Gene Name是经过HGNC批准的全基因名称;对应于上面批准的符号(Gene Symbol)。例如SUPT4H1对应的Gene Name就是:SPT4 homolog, DSIF elongation factor subunit。
HGNC ID:HGNC ID是HGNC数据库分配的基因编号,每一个标准的Symbol都有对应的HGNC ID,例如:HGNC:11998 。我们可以用这个编号,在HGNC数据库中搜索相关的基因。有时候HGNC会对一些已经命名过的基因进行重新审查和重新命名,以确保新的基因命名在描述基因功能方面更加的准确。当一个基因被HGNC分配了新的Gene Symbol时,它之前的命名,会被当作同义词继续使用,所以一般建议使用HGNC ID而不是HGNC Symbol来作为我们处理数据中的唯一标识符。
Gene ID(Entrez ID)
Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。其实就是来自于ncbi里面的gene数据库。
每个基因的编号具有唯一性,包括不同种属生物间的同源基因编号也不相同,例如同样是TP53基因,人源TP53的Entrez ID为7157,zebrafish源的Entrez ID为30590,chichen源的Entrez ID为396200
关于gene数据库对于ID的注释。这个ID号只是代表基因。对于一个基因而言它会有不同的mRNA转录本,进一步的也会有不同的蛋白异构体。在gene数据库里面对于转录本和蛋白的编号是以NM和NP开头的。如果是NM的话则代表是转录本编号,如果是NP的话则是蛋白编号,还有非编码RNA(ncRNA)就是NR开头的。
Ensembl ID
关于Ensembl ID,不管是什么类型的,其ID号的前三个开头都是以ENS开头的。剩下的可以再看第四位:
-
G代表是Gene。是这个基因的的唯一编码,类似于Gene数据库里面的数字
-
T代表Transcript。是数据库对于不同转录本的ID号。这个类似于上面gene数据库当中的NM编号开头的ID。
-
P代表protein。是数据库对于不同蛋白的ID号。这个类似于上面gene数据库的NP编号开头的ID。
ID号后面有一个.ID来代表不同的版本。所以就有了ENSGXXXX.1这样的编号。
查找ID相关信息
如果是人类gene,建议先去HGNC搜索该基因,如下
image-20201223115335015进入详细页可以查看其Gene symbol,包括现在的曾经用过的symbol,以及它的一些别名。比如我们拿到一个基因symbol,有可能是曾用名,直接去检索文献就会有一定的偏倚和缺失。
image-20201223115731221然后HGNC可以连接到几个大的核酸数据库,可以实时查看相关ID或者链接到数据库了解相关序列信息
image-20201223115904921还有一些其他资源的链接,可以自行探索。