序列比对1
1、含义及格式
序列 sequence 有蛋白质的氨基酸序列,DNA和RNA的核苷酸序列
序列的最常用的格式是:FASTA
# FASTA的基本格式
>AF218583.1 Equus caballus muscle type pyruvate kinase (PKM2) gene, partial cds ## >后是注释信息,第二行是序列
GTGATGCCGCCTGGCTGNACATTCCTGGAGCACATGTGCCGCCTGGACATTGATTCTCCACCCATCACGG
CCCGGAACACTGGCATCATTTGTACTATCGGTGAGTAGGTGTGCCAGGCCCCCCTCTCCCCCCCTCCCCC
AAACAAGGGCTTCACAGTGATCTTTTCTCTCCTGAAAAGACTAAATGTAGCAAACCTGGGTGCTAAGCGA
GATGCTACAGATTCTTGTGGGAATTCAAGTCATAGGAAATTGCAATAAAGAATTAGTATGCTTTATGTTT
TCTGGTAAAGGCAAAATTTAGAGGATGTCTTCCTTAGCAGATTTTTGTAGAAACATCTGAGAGAGGAAAG
AACCTTTTGACATGCTCTGTGCAACCAGGGTTCTGTGTTTGGACATCTGTCTGGGCTTAGGGAGAGCAAA
GAGGGCTGGCCAAGTCTTCCTAGGCTTTCTAATTAGATGGAAGCCTGTAGAATTTGAAGAAATAAAGAAG
TGTCTCCTCAATCAAGAAAGTGGCTACACAATATGCCAATANTCTTTGAAGATTTGACATTTGCAGAAGA
TAGGAAAAA
2、序列相似性
相似的序列--相似的结构--相似的功能 </br>
用identity(一致度)和similarity(相似度)来量化序列的相似程度
- 一致度:如果两个序列长度相同,那么一致度为对应位置上相同的残基的数目与序列总长度的百分比
- 相似度:指的是相同位置上相似的残基数占总长度的百分比
比如 序列CLHK 与CIHL的一致度就是2/4=50%
==那么如何衡量相似的残基呢?==
3、替换记分矩阵
反映残基之间相互替换率的矩阵 即描述残基间的相似程度,包括DNA和蛋白质替换记分矩阵
-
DNA替换记分矩阵
- 等价矩阵
相同核苷酸替换得分1分,不同的0分,较少使用 - 转换-颠换矩阵
保持环数不变的替换(A→G,C→T)叫转换,环数变化的叫颠换,在自然界中转换比颠换更常见,所以转换为-1,颠换为-5,相同的为1 - BLAST矩阵
相同的为5,不同的为-4,大量比对的结果(经验)
矩阵
- 等价矩阵
-
蛋白质替换记分矩阵
- 等价矩阵
相同得1分,不同得0分 - PAM矩阵(point accepted mutation)
替换频繁的氨基酸之间得分就高。基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值,由统计方法得到。PAM-1自乘n次,可以得到PAM-n ,表示发生了更多次突变。我们需要根据要比较的序列之间的亲缘关系远近,来选择适合的PAM矩阵
- 等价矩阵
- BLOSUM矩阵
与PAM矩阵的不同之处:
1、BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的(PAM-1矩阵是基于相似度大于85%的序列计算产生的,也就是通过关系较近的序列计算出来的。那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的)
2、编号不同,比如BLOSUM80中的80,代表这个矩阵是由一致度≥80%的序列计算而来的。同理,BLOSUM62是指这个矩阵是由一致度≥62%的序列计算而来的。因此,BLOSUM后面跟一个小数字的矩阵适合用于比较相似度低的序列,也就是亲缘关系远的序列;而BLOSUM后面跟一个大数字的矩阵适合比较相似度高的序列,也就是亲缘关系近的序列,这与PAM矩阵是相反的
BLOSUM62
氨基酸差异及编号的选择?
氨基酸差异与矩阵编号PAM后面的数体现的是序列的差异度,但不直接等于差异度,只是成对应关系而已;BLOSUM后面的数体现是的序列的相似度并且直接等于相似度。所以我们看到,随着差异度的增大,适用的PAM矩阵后面的编号是增大的,而BLOSUM矩阵后面的编号是减小的。
亲缘关系与矩阵选择
对于关系较远的序列之间的比较,由于PAM250是通过矩阵自乘推算而来的,所以其准确度受到一定限制。相比之下BLOSUM矩阵更具优势。对于关系较近的序列之间的比较,用PAM或BLOSUM矩阵做出的比对结果,差别不大。
-
遗传密码矩阵
遗传密码矩阵
通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到的。矩阵的值对应为据此付出的代价如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2个碱基的改变,则替换代价为2;再比如从蛋氨酸(Met)到酪氨酸(Tyr)三个密码子都要变,则代价为3。
-
疏水矩阵
疏水矩阵
它是根据氨基酸残基替换前后疏水性的变化而得到的矩阵。若一次氨基酸替换导致疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。
有了替换记分矩阵,就可以知道哪些氨基酸是相似的
如序列CLHK与CIHL,我们可以从替换记分矩阵中读出I和L相似,K和L不相似。因此,它们的相似度就是2个相同的加上1个相似的,除以长度4,等于75%。
两个序列的长度不相同,怎么计算它们的一致度和相似度呢?