基因、蛋白等的命名
本文介绍了基因、蛋白、引物、载体、限制酶切位点、酶、微生物的命名规则。由于涉及领域宏大,全面的细则以报告或文件的形式发表,本文只是对各类的命名做形而上的简介,同时融合了笔者的一些认识,在必要之处例证说明。笔者并非做以上所有领域的研究,只是困惑于文献中出现的种种名词,方做以下梳理。如需了解详细命名法,十分推荐参考那些冗长的原始定则或请教各领域专家,也许参考分类相关及其领域的文献能更容易地领略那些命名的方法。
基因部分以植物为对象,许多个性化的命名未来得及补充,待日后添加。微生物部分介绍了细菌、真菌及病毒在物种层次及种群层次的命名情况。
一、基因的命名
基因名无论全称或简称,无论长短均需斜体。
基因名通常是反映基因的功能或特性。
文章首次出现的基因应全写,后可简写。
完整基因名包括前缀、主体、后缀,前缀主要是物种名,后缀反映基因超家族、家族、亚族及基因次第等信息,例如Arabidopsis thaliana EXPANSIN A1;简写时前缀与基因名可缩写,例如AtEXPA1[1, 2]。这个完整的基因名表示该基因来源于Arabidopsis thaliana,且为拥有EXPANSIN结构的首个(A)基因家族中的第一个基因。(关于基因家族后面解释)
简写基因名的主体是三个字母,即反映基因功能或特性词汇的首字母缩写。野生型该三字母大写,突变型该三字母小写。
基因名的后缀实际在不同基因家族中有不同的含义,这是由于不同基因家族的体量不同,能够划分的层次有别。大的基因家族可以划分出基因超家族(superfamily)、基因家族(family)、亚族(subfamily)、基因(gene)几个层次(图1)。基因超家族包括序列结构相似,功能却有不同的若干基因家族。功能不同是氨基酸序列差异的结果,相比碱基序列,氨基酸变异更灵敏,只需改变一个碱基便可导致氨基酸的替换,因此存在序列差异不很大,氨基酸差异即显著的情况。基因家族通常包括序列结构相似、功能也相似的多个基因;如果基因家族所含基因众多,便可从中划分若干亚族。亚族通常存在于不同物种间,即受物种分化而形成,与原亚族相比,结构相似,功能有一定差异。
图1 拟南芥(At)Expansin蛋白序列以及其他物种拥有类Expansin的EXLA和EXLB序列构建的系统发育树,这是一棵NJ树。所谓的其他物种包括水稻(Os)、棉花(cot)、番茄(tom)、苜蓿(medi)、生菜(let)。所有蛋白序列聚为4支,分别对应EXPA、EXPB、EXLA、EXLB四个基因家族,四个家族组成一支基因超家族。尽管不同基因家族的后缀类型多样,仍然有可总结的共性。
(1)不同层次可依次用大写罗马字母(A, B, C, …)、阿拉伯数字(1, 2, 3, …)、小写罗马字母(a, b, c, …)、阿拉伯数字(1, 2, 3, …)表示,如CYP2B1,表示CYP系列(细胞色素P450)第二个基因家族,第二个亚族的第一个基因[3]。由于层级不定,一个基因的名称中可以只出现一种编号,且编号可选择性使用,如AtEXPA1,表示来源于At的EXP系列第一个基因家族的第一个基因[1]。
(2)等位突变基因用基因名加连字号和数字表示,如expA1-1表示EXPA1的等位突变基因。
(3)野生型基因和突变基因的蛋白产物名称与其各自的基因名相同,只是书写要用正体,如EXPA或expA1-1。
(4)种属名的首字母缩写放在最前面,用以表示不同的物种;如果两个物种种属名的首字母缩写相同,则须在其种属名缩写后加一区别性字母。
个性。
(1)一些具有特殊用途的保留字。基因名末尾的P代表假基因(如ACTBP2 = actin beta pseudogene 2,表示ACT系列第二个基因家族的第二个假基因),BP代表结合蛋白,L代表类似的,R代表受体或调节因子,N或NH代表抑制子[4]。
(2)……
其他。
(1)DNA片段的命名。由四部分组成。第一部分用D表示DNA;第二部分用0、1、2、...、22、X、Y、XY表示DNA片段所在的染色体位置,其中0代表还不知染色体位置,而XY表示片段在X和Y染色体上都有该片段;第三部分表示用探针检测到的DNA片段的复杂程度,S代表这是一条独一无二的DNA片段,Z代表在染色体一个单一位置重复出现的DNA片段,F代表在多条染色体上都存在同源序列但还没有定义家族的DNA片段;第四部分为区分不同的DNA片段加上一个数字编号[4]。例如微卫星DNA标签DXS990,表示染色体X上独一无二的编号为990的DNA片段。
二、蛋白的命名
蛋白名与对应的基因名相同,只是书写时用正体。
三、引物的命名
引物命名尚未有统一标准,所见名均为缩写或俗名(如T7,pAc5-5等),全称通常能反映引物退火点位,包括结合对象、结合片段名、结合位点的碱基定位等信息。例如,ITS1引物的全名为nu-SSU-1787-5',“nu-SSU”表明该引物退火于细胞核rDNA的小亚基处(nuclear Small SUbunit of ribosomal DNA),“1787”代表引物5’末端参考Saccharomyces cerevisiae Meyen exHansen标准序列的碱基定位,“5’”表明引物退火到编码链,若为“3’”则表明引物退火到非编码链?[5]。
四、载体的命名
载体(Vector)是在基因工程重组DNA技术中将DNA片段(目的基因)转移至受体细胞的一种能自我复制的DNA分子。常见载体包括细菌质粒、噬菌体和动植物病毒等。
载体的命名没有统一的规定,由研究者自行命制,名称通常能反映载体的类型、实验编号、特性等信息。通常的载体名首字母为小写的“p”(穿梭载体等少数例外),例如质粒载体pBR322,“p”代表载体,“BR”为两位研究者Bolivar和Rogigerus姓氏的字首,“322”是实验编号;pUC8质粒载体,“UC”表示该载体首先由美国加州大学(University of California)学者构建(1987年),“8”是实验编号;pYAC载体中“YAC”是酵母人工染色体(yeast artificial chromosome)的英文首字母。载体名的含义可参考载体构建时发表的原始文献。
五、限制酶切位点的命名
限制酶切位点的名字有统一的规定,即酶切位点首次发现的物种属名首字母****+****种加词前两字母****+****(实验菌株)****+****编号。如果名中有实验菌株号,则编号在各菌株中从1开始,若名中无实验菌株号,编号从该物种发现的第一个限制性位点开始连续编。此外,属名首字母+种加词前两字母需斜体,其余正体。
例如,EcoRⅠ,表示该位点发现于大肠杆菌Escherichia coli,实验菌株R的第1种限制性位点。HindⅢ,表示该位点发现于流感嗜血杆菌Haemophilus influenzae,实验菌株d的第3种限制性位点。BglⅡ,表示该位点发现于球芽孢杆菌Bacillus globigii,第2种限制性位点。
六、酶的分类与命名
(一)酶的系统分类[6]
目前国际上通用的酶系统分类是国际生物化学和分子生物学联合会(International Union of Biochemistry and Molecular Biology, IUBMB)的命名委员会(Nomenclature committee)于1961年提出的,首先是根据酶催化的化学反应性质分为六大类,分别用数字1-6表示(表1)。
表1 酶的分类每个大类中,再根据底物中被作用的基团或键的特点,分为若干亚类,用阿拉伯数字表示;每一亚类又根据接收电子的受体不同分为若干亚亚类,同样用阿拉伯数字表示;而亚亚类中的酶依次用阿拉伯数字编号。每一种酶都可以由此获得一个独一无二的由4个阿拉伯数字组成的编号,编号前加上EC表示酶学委员会(Enzyme Commission)的缩写。如甘油脱氢酶(Glycerol Dehydrogenase)的编号是EC 1.1.1.6,表示该酶属于氧化还原酶类,作用于底物的CH—OH基团,以NAD+或NADP+为电子受体,在这一亚亚类中排在第6个。
(二)酶的命名[6]
1961年公布酶系统分类以前,酶的命名相当混乱,往往使用习惯名,故常有一酶数名、一名数酶的情况出现。为改变这种状况,NC-IUBMB建议,每一种酶都给予一个系统名和一个习惯名。
系统名要求明确表明酶的地物和催化反应的性质,因此系统名由底物名称和催化反应类型两部分组成,如葡萄糖异构酶。如果有两个或两个以上底物,则需表明所有底物名称,不同底物名称用“:”隔开,如乳酸:NAD+脱氢酶。如果底物之一是水,通常水可以省略,如乙酰胆碱:水乙酰水解酶通常写作乙酰胆碱乙酰水解酶。
习惯名有的是根据酶作用的底物命名,如淀粉酶、蛋白酶等。有的还加上酶的来源以区分不同来源的同一类酶,如胃蛋白酶、胰蛋白酶等。有的根据酶催化反应的性质命名,如水解酶、氧化酶、还原酶等。有的根据酶的地物结合反应性质命名,如乳酸脱氢酶、葡萄糖氧化酶等。绝大多数酶的英文以“ase”为后缀,如Ligase(连接酶)、Hydrolase(水解酶)等,但少数例外,如Pepsin(胃蛋白质酶)等。
酶学委员会规定,在以酶为主要论题的文章中,首先要将酶的编号、系统命名和来源标示清楚,然后可以按照个人习惯,使用习惯名或系统名。
值得注意的是,酶的系统分类和命名无法区分不同的同工酶(Isozyme),为了更准确地描述某种同工酶需要指明同工酶的类型。
七、微生物的命名
(一)细菌与真菌
细菌与真菌的命名遵循一般物种的命名法则,即采用拉丁二名法或三名法。
同一种细菌/真菌,不同来源的个体在实验室中无性培养形成的种群称不同的菌株(Strain)。
菌株(Strain,又称品系),表示同种微生物不同来源的纯种培养,从自然界中分离得到的每一个微生物纯培养都可称一个菌株。
菌株的命名根据实验需要确定,一般可用字母加编号表示(字母多数表示实验室、产地或特征等信息,编号则为序号)。
(二)病毒
病毒的命名分为俗名法和拉丁双名法。尽管双名法是相对规范的命名法,使用时通常习惯用俗名,甚至有些病毒只有俗名,未命双名,如新型冠状病毒SARS-CoV-2(Severe Acute Respiratory Syndrome Coronavirus 2)。
俗名法对同一种病毒会出现多名的情况,如烟草花叶病毒,可以是Tobacco mosaic Virus(TMV),Nicotiana Virus 1(烟草病毒1号=烟草花叶病毒)。对于同一物种发现的多种病毒,可以在编号上体现,如烟草蚀斑病毒Nicotiana Virus 7。然而,过去的俗名中,许多同一物种不同编号的病毒实际为不同毒株而已,可见,俗名法一度相当混乱。
特别地,噬菌体病毒常使用代号命名(字母和数字),如噬菌体T2、T4、T6。实际上,噬菌体也有拉丁学名,在“属”、“种”阶元上,称之为某某噬菌体属、某某噬菌体(图2)[7]。
图2 部分噬菌体目、科的系统分类示意图(冯烨,2013)病毒毒株相当于细菌菌株。关于毒株的命名通常是根据实验需要、病毒变异情况、次序进行命名。如对某病毒进行多毒株培养,每一宿主的毒株需逐一编号,结合字母与数字。根据病毒变异情况,例如SARS-CoV-2,天然出现的主要毒株被命名为α、β、δ(即AY.4进化分支)、Ο等,其中各自的变异型以字母、数字命制,如Ο的变种BA.2亚型毒株。
关于病毒的命名可参考知乎答主“Vigorous Cooler”的回答[8]:
病毒是如何命名的? - Vigorous Cooler的回答 - 知乎。
参考文献
[1] Kende H, Bradford K, Brummell D, et al. Nomenclature for members of the expansin superfamily of genes and proteins[J]. Plant Mol Biol. 2004, 55(3): 311-314.
[2] 牛艳梅,沈文涛,周鹏. Expansin超级家族的进化与命名[J]. 广东农业科学. 2007(08): 133-135.
[3] 唐振华,胡刚. 细胞色素P450基因的命名及其基因表达的调控[J]. 昆虫知识. 1993(05): 311-314.
[4] 杨泉胜,杨岐生. 人类基因命名的规则和过程[J]. 生命的化学. 2000(04): 179-181.
[5] Andrea G, Paula T D. A nomenclature for fungal PCR primers with examples from intron-containing SSU rDNA[J]. Mycologia. 1996, 88(5).
[6] 袁勤生. 酶与酶工程[M]. 第2版. 上海: 华东理工大学出版社, 2012.
[7] 冯烨,刘军,孙洋,等. 噬菌体最新分类与命名[J]. 中国兽医学报. 2013, 33(12): 1954-1958.
[8] 病毒是如何命名的? - Vigorous Cooler的回答 - 知乎.
推荐文献
[1] den Dunnen J T, Dalgleish R, Maglott D R, et al. HGVS Recommendations for the Description of Sequence Variants: 2016 Update[J]. Hum Mutat. 2016, 37(6): 564-569.
[2] 基因究竟是如何命名的? - 萌小白转载自“解螺旋·临床医生科研成长平台” - emlog.