【现学现卖】序列比对之identity VS similarit

2020-08-06 本文已影响0人番茄随笔

今天对次生代谢产物基因簇（BGCs）的氨基酸序列比对的时候，看到结果文件里有%identity和%similarity两类输出结果。

上次比较了标准差和标准误（【现学现卖】标准差VS标准误），这次看看这两个概念——一致度（identity）和相似性（similarity）。

%identity指的是两条碱基序列或者两条氨基酸序列的相同比对长度中，对应位置上相同残基的数目占总长度的百分数。

比如上面的一段长131的氨基酸序列，完全对应的绿色部分占总长的95%。

%similarity指的是对应位置上相同和相似的参基占总数的百分数。

对于上面的不完全匹配的氨基酸残基，存在氨基酸保守性替换，所以虽然不是完全一致，但是相似性为100%。

一般用相似性和一致性推测两个序列的同源性（好像identity>30%，similarity>50%可以说是同源的，没有查到明确的量化指标，可能也需要根据基因、蛋白质功能进一步确认吧）。

同源性（homology）是一个进化学上的概念，没有程度，只有同源或者不同源。所以说两个序列95%同源，或者高度同源都是不恰当的。

PS. 对于微生物中次生代谢产物基因簇分析，注意比对core biosynthesis genes的相似度。因为基因簇中有很多基因，主要的合成基因和一些调控基因等。