单基因搜索1——基因名

2020-12-23 本文已影响0人谢某丶

单基因搜索

当我们想查询一个基因的相关信息或者检索一个基因，首先我们要了解我们需要什么，以下是个人经验总结，可能有不完善的地方希望大家指出
1. 基因名
2. 序列信息
3. 相关功能
4. 相关研究——文献调研
5. 富集分析

下面以SUPT4H1为例

基因名

一个基因可以有很多名字。各个大数据库都有自己一套命名规则，所以同一个基因在不同数据的ID形式是不一样的。常见的ID形式：gene ID、gene symbol、Ensemble ID

gene symbol：SUPT4H1

HGNC（人类基因命名委员会）只对人类基因进行命名。

HUGO Gene Symbol：HUGO Gene Symbol(也叫做HGNC Symbol，即基因符号)是HGNC组织对基因进行命名描述的一个缩写标识符（如:SUPT4H1），这些基因符号都是唯一的。

Gene Name：Gene Name是经过HGNC批准的全基因名称;对应于上面批准的符号（Gene Symbol）。例如SUPT4H1对应的Gene Name就是：SPT4 homolog, DSIF elongation factor subunit。

HGNC ID：HGNC ID是HGNC数据库分配的基因编号，每一个标准的Symbol都有对应的HGNC ID，例如：HGNC:11998 。我们可以用这个编号，在HGNC数据库中搜索相关的基因。有时候HGNC会对一些已经命名过的基因进行重新审查和重新命名，以确保新的基因命名在描述基因功能方面更加的准确。当一个基因被HGNC分配了新的Gene Symbol时，它之前的命名，会被当作同义词继续使用，所以一般建议使用HGNC ID而不是HGNC Symbol来作为我们处理数据中的唯一标识符。

Gene ID(Entrez ID)

Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。其实就是来自于ncbi里面的gene数据库。

每个基因的编号具有唯一性，包括不同种属生物间的同源基因编号也不相同，例如同样是TP53基因，人源TP53的Entrez ID为7157，zebrafish源的Entrez ID为30590，chichen源的Entrez ID为396200

关于gene数据库对于ID的注释。这个ID号只是代表基因。对于一个基因而言它会有不同的mRNA转录本，进一步的也会有不同的蛋白异构体。在gene数据库里面对于转录本和蛋白的编号是以NM和NP开头的。如果是NM的话则代表是转录本编号，如果是NP的话则是蛋白编号，还有非编码RNA（ncRNA）就是NR开头的。

Ensembl ID

关于Ensembl ID，不管是什么类型的，其ID号的前三个开头都是以ENS开头的。剩下的可以再看第四位：

G代表是Gene。是这个基因的的唯一编码，类似于Gene数据库里面的数字
T代表Transcript。是数据库对于不同转录本的ID号。这个类似于上面gene数据库当中的NM编号开头的ID。
P代表protein。是数据库对于不同蛋白的ID号。这个类似于上面gene数据库的NP编号开头的ID。

ID号后面有一个.ID来代表不同的版本。所以就有了ENSGXXXX.1这样的编号。

查找ID相关信息

如果是人类gene，建议先去HGNC搜索该基因，如下

image-20201223115335015

进入详细页可以查看其Gene symbol，包括现在的曾经用过的symbol，以及它的一些别名。比如我们拿到一个基因symbol，有可能是曾用名，直接去检索文献就会有一定的偏倚和缺失。

image-20201223115731221

然后HGNC可以连接到几个大的核酸数据库，可以实时查看相关ID或者链接到数据库了解相关序列信息

image-20201223115904921

还有一些其他资源的链接，可以自行探索。