【现学现卖】序列比对之identity VS similarit
2020-08-06 本文已影响0人
番茄随笔
今天对次生代谢产物基因簇(BGCs)的氨基酸序列比对的时候,看到结果文件里有%identity和%similarity两类输出结果。
上次比较了标准差和标准误(【现学现卖】标准差VS标准误),这次看看这两个概念——一致度(identity)和相似性(similarity)。
%identity指的是两条碱基序列或者两条氨基酸序列的相同比对长度中,对应位置上相同残基的数目占总长度的百分数。
比如上面的一段长131的氨基酸序列,完全对应的绿色部分占总长的95%。
%similarity指的是对应位置上相同和相似的参基占总数的百分数。
对于上面的不完全匹配的氨基酸残基,存在氨基酸保守性替换,所以虽然不是完全一致,但是相似性为100%。
一般用相似性和一致性推测两个序列的同源性 (好像identity>30%,similarity>50%可以说是同源的,没有查到明确的量化指标,可能也需要根据基因、蛋白质功能进一步确认吧)。
同源性(homology)是一个进化学上的概念,没有程度,只有同源或者不同源。所以说两个序列95%同源,或者高度同源都是不恰当的。
PS. 对于微生物中次生代谢产物基因簇分析,注意比对core biosynthesis genes的相似度。因为基因簇中有很多基因,主要的合成基因和一些调控基因等。