“官宣”的参考序列选择
本篇文章首发于微信公众号:基因部落,搜索公众号名称“基因部落”或公众号ID: gene-club,即可找到,欢迎关注!
HGVS是Human Genome Variation Society(人类基因组变异协会)的简称,是一个非政府的民间学术组织,其官方网站的网址:http://www.hgvs.org/。HGVS命名规则由HGVS(the Human Genome Variation)、HVP(the Human Variome Project)、HUGO(the Human Genome Organizaion)共同制定。
目前基因检测行业普遍应用HGVS规则对变异进行命名,统一的命名规则方便了各种交流。
下面介绍HGVS的命名规则。
HGVS的所有变异命名从三个水平描述:DNA水平、RNA水平、氨基酸水平,并从两个方面进行反映:变异位点的位置和对编码蛋白造成的影响。
所以,变异描述的顺序为:参考序列、变异位置、变异类型。
我们在变异描述中使用的参考序列是怎么回事?各又代表什么含义?这篇文章我们会重点描述。
所有突变位点必须基于一个参考序列进行描述,不用类型或版本的参考序列之间有或多或少差别,因此,在进行变异描述之前需务必标明参考序列信息。
1. 格式
参考序列必须是是NCBI或EBI数据库中的ID,必须同时包含accession和version信息,如NC_000023.10, NC_000023代表编号,10代表版本号。
上述例子中下划线前面的大写字母代表参考序列的格式,目前批准(官宣)的参考序列格式有:NC_#(例如NC_000023.10),LRG_#(例如LRG_199,LRG_199t1),NG_#(例如NG_012232.1),NM_#(例如NM_004006.2),NR_#(例如NR_002196.1)和NP_#(例如NP_003997 0.1)。
NC_#:代表完整的基因组序列,标记的类别包括基因组、染色体、细胞器、质粒。
LRG_#:Locus Reference Genomic,基因座参考基因组序列。
NG_#:不完整的基因组区域,提供NCBI基因组注释途径。比较有代表性有不转录的假基因或者那些很难自行化注释的基因组簇。
NM_#:转录产物序列;成熟mRNA转录本序列。基因检测报告中最常用此作为参考序列。
NR_#:非编码的转录子序列,包括结构RNAs,假基因转子等。
NP_#:蛋白产物;主要是全长氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。
2.文件标识符
参考序列文件标识符应包含入藏号(accession number)和版本号(version number),两者用“.”隔开,除了LRG格式的参考序列之外,其他格式的参考序列均需要版本号。
如:NG_012232 .1
LRG参考序列不包含版本号(例如LRG_199)
在参考序列文件标识符和变异位置之间用冒号“:”隔开,如NC_000011.9 : g.12345611G>A。
HGVS建议使用最新的基因组参考序列版本,如NC_000023.10(对于人染色体X,GRCH37 / hg19)。
一个典型的HGVS命名示例如下:
NC_000023.9:g.32317682G>A
NC_000023.9是NCBI中人类的X染色体的编号,在参考序列之后紧跟着一个冒号,用于分隔参考序列和突变信息,g代表基因组序列,g.32317682代表在基因组上的位置, G>A表示由G碱基突变成A碱基。
如果突变位点在NCBI和EBI中没有合适的参考序列,最终的解决方案就是申请一个LRG编号(http://www.lrg-sequence.org/),在该数据库中对于HGNC定义的gene symbol也出给了对应的LRG编号。
3. 参考序列类型
DNA
g. = 线性基因组参考DNA序列
o. = 环状基因组参考DNA序列
m. = 线粒体参考序列
c. = 编码DNA参考序列
n. = 非编码DNA参考序列
RNA
r. = RNA参考序列
Protein
p. = 蛋白参考序列
4. 变异位置
g代表基因组,m代表线粒体, p代表蛋白质,这三种参考序列在定位时,都是从1开始计数,写法为g.1, m.1, p.1, 除此之外,不需要任何的修饰符号。
c代表编码蛋白的DNA序列,从起始密码子的第一个碱基开始计数,写法为c.1, 只对exon区间进行计数,终点为终止密码子的最后一个碱基。
对于起始密码子上游的碱基,采用负号表示,比如c.-1;对于终止密码子下游的碱基, 采用*表示,比如c.*1;
在内含子区的变异位点要根据距离来决定,靠近内含子5’末端的变异位点,要根据上游最近的外显子的最后一个碱基来定位,示例c.87+4,上游最近的外显子的边界位置为87,变异位点在内含子5’端开始的第4个碱基;
靠近内含子3’末端的变异位点,要根据下游最近的外显子的第一个碱基来定位,示例c.109-4,下游最近的外显子的边界位置为109,变异位点在内含子3’端开始的第4个碱基;
位于5’UTR和3’UTR区的变异位点,也当做内含子区来处理,5’UTR区添加c.-前缀;比如c.-85+1;3’UTR区添加c.*前缀,比如c.*37+1。
参考资料:
http://www.hgvs.org/
http://www.hgvs.org/mutnomen/
http://bioinformation.cn/?p=19