基因预测原理
2019-04-30 本文已影响12人
赵会成
几个生物学概念
与基因转录有关的重要位点:
(1)启动子:可与RNA聚合酶特异性结合而使转录开始的一段DNA序列。但启动子本身并不被转录,属于基因上游对转录起调控作用的5′ 端非编码区。一般可分为两类,一类是RNA聚合酶可以直接识别的启动子;另一类是与聚合酶结合时需要有蛋白质辅助因子。
(2)终止子:在转录过程中,提供转录终止信号的DNA序列,在RNA水平上通过转录出来的终止子序列形成茎—环结构而起作用。
(3)起始密码子:信使核糖核酸分子中规定编码多肽链第一个氨基酸的密码子。细菌的起始密码为AUG,转译为n-甲酰基甲硫氨酸;或较罕见的GUG(缬氨酸)。真核生物的起始密码子总是AUG,转译为甲硫氨酸。起始密码子在相应的DNA中为ATG。
(4)终止密码子:信使核糖核酸分子中作为转译多肽链终止信号的三联体密码子。可终止蛋白质合成。此密码子通常用矿石或宝石命名,有3种,包括琥珀密码子(UAG)、赭石密码子(UAA)、欧珀密码子(UGA)等。
常用的从头预测软件有:Glimmer, Prodigal, GeneMark, FGENESB, Prokka
原理:通过扫描基因组,找到从ATG (少数GTG, TTG)开始的位置,直到TGA, TAG, TAA。扫描所有的orf,得到所有基因的位置信息,原核基因组是多顺反子,也就是说基因之间是可以有overlap。
除此之外,检验基因预测准确度的一个重要标准是基因的平均长度为1kb,预测的基因平均长度偏离太大,需要检查是否存在问题。