(一)序列比对
1.
认识序列。
序列(sequence): 就是字符串(string)
s=abcdefghijklmnopqrstuvwxyz
通常用 代表序列s 的第i个字符,比如 =d
通常用 s ’ 表示s 的子序列。
蛋白质序列:
是由20个不同的字母,也就是20种不同的氨基酸排列组合而成。
核酸序列:
是由4种不同的字母,也就是4种不同的碱基排列组合而成。核酸序列又分为DNA序列和RNA序列。
生物序列有自己的书写格式,而且格式很多。不同的处理软件会用到不同的格式,但是最常用的是
FASTA格式:
第一行是一个 > 开头 ,后面紧接注释信息2.
数据库中的序列相似性:
对于一个已知序列却未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,那么就可以推测出这个未知结构和功能的蛋白质的结构和功能。简言之,相似的序列意味着相似的结构,相似的结构意味着相似的功能。
我们用 一致度 和 相似度 这两个指标来定量描述序列有多相似。
例如:
一个残基就是指一个字母(氨基酸或碱基)一致度:如果两个序列(蛋白质或核酸)长度相同,那么他们的一致度定义为他们对应位置上相同的残基数目占总长度的百分比。 上例一致度:24=50%
相似度:如果两个序列(蛋白质或核酸)长度相同,那么他们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分比。
相同可以找到,但相似怎么找呢?要解决这个问题,我们需要替换记分矩阵。
替换记分矩阵:是反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。比如图1 就是一个替换记分矩阵。矩阵种行和列分别是20种氨基酸,且两两之间有一个分值。根据这个分值就可以知道谁和谁相似,谁和谁不相似。
图1-BLOSUM-62 替换记分矩阵DNA 序列的替换记分矩阵:
①等价矩阵:
等价矩阵这个矩阵最简单,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中很少使用,一般只用于理论计算。
②转换-颠换矩阵:
转换-颠换矩阵核酸的碱基按照环结构特征被划分为两类,一类是嘌呤,包括腺嘌呤A和鸟嘌呤G,它们都有两个环;另一类是嘧啶,包括胞嘧啶C和胸腺嘧啶T,它们只有一个环。
如果DNA碱基的替换保持环数不变,则称为转换,比如A→G,或者C→T,也就是嘌呤变嘌呤,嘧啶变嘧啶。
如果环数发生变化,则称为颠换,比如A→C,或者T→G,也就是嘌呤变嘧啶,嘧啶变嘌呤。
大自然更倾向于接受嘌呤和嘌呤之间的替换,以及嘧啶和嘧啶之间的替换,而嘌呤和嘧啶之间的替换会导致不好的事情发生,这种替换大多在进化过程中被淘汰。
转换-颠换矩阵中,转换的得分为-1分,颠换的得分为-5分。
③BLAST矩阵:
BLAST矩阵经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5分,不相同为-4分,这时比对效果最好。这个矩阵广泛地被DNA序列比较所采用。