生信基础高通量测序数据处理ID转化

ID转换之---ID是什么?

2019-04-07  本文已影响96人  Juan_NF
ID转换?系统了解下ID
ENSEMBL ID

五部分组成:ENS(物种)(对象类型)(标识符).(版本)

  • 第一部分“ENS”告诉您它是一个Ensembl ID
  • 第二部分是三个字母的物种代码。对于人类,没有物种代码,因此ID的形式为ENS(对象类型)(标识符).(版本)
  • 第三部分是单字母或双字母对象类型。例如E为外显子, FM为蛋白质家族,G为基因,GT为基因树,P为蛋白质,R为调节特征,T为转录物。
  • 标识符是该对象的编号。前缀和标识符的组合是唯一的。
  • 版本表示该模型在Ensembl期间发生了多少次变化。
ENTREZ ID

Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene
location的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。每个基因的编号具有唯一性,包括不同种属生物间的同源基因编号也不相同,例如同样是TP53基因,人源TP53的Entrez ID为7157,zebrafish源的Entrez ID为30590,chichen源的Entrez ID为396200。
https://blog.csdn.net/liufeichendi/article/details/78819884

Refseq ID

RefSeq数据库,即RefSeq参考序列数据库,是美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质等片段序列的数据库。RefSeq 有一套特殊的 Accesion Number(就是我们通常用的RefSeq ID)让我们来进行检索。ID的常见前缀为:


image.png
HGNC ID是HGNC数据库分配的基因编号,每一个标准的Symbol都有对应的HGNC ID 。我们可以用这个编号,在HGNC数据库中搜索相关的基因。例如:HGNC:11998
ID转换一般涉及probe ID、gene ID、transcript ID;
  • An extremely common kind of Annotation package is the so called platform based or chip based package type. This package is intended to make the manufacturer labels for a series of probes or probesets to a wide range of gene-based features. A package of this kind will load an ChipDb object.---基于平台或基于芯片的包类型;
  • A TxDb package (a ’TxDb’ package) connects a set of genomic coordinates to various transcript oriented features.----将基因组坐标与转录本相关特征结合到一起;
  • An organism level package (an ‘org’ package) uses a central gene identifier (e.g.Entrez Gene id) and contains mappings between this identifier and other kinds of identifiers (e.g. GenBank or Uniprot accession number, RefSeq id, etc.). The name of an org package is always of the form org.<Ab>.<id>.db----org包使用Entrez Gene id,包含其与多种ID之间的映射,比如 GenBank或Uniprot的检索号,RefSeq ID等;一般的命名格式为org.<Ab>.<id>.db。Ab为物种的2个字母简写,id为所用中心identifier的缩写,比如,eg for Entrez Gene ids。
上一篇下一篇

猜你喜欢

热点阅读