生物信息学学习

序列比对1

2019-05-13  本文已影响9人  吴涛_631b

1、含义及格式

序列 sequence 有蛋白质的氨基酸序列,DNA和RNA的核苷酸序列
序列的最常用的格式是:FASTA

# FASTA的基本格式
>AF218583.1 Equus caballus muscle type pyruvate kinase (PKM2) gene, partial cds ## >后是注释信息,第二行是序列
GTGATGCCGCCTGGCTGNACATTCCTGGAGCACATGTGCCGCCTGGACATTGATTCTCCACCCATCACGG
CCCGGAACACTGGCATCATTTGTACTATCGGTGAGTAGGTGTGCCAGGCCCCCCTCTCCCCCCCTCCCCC
AAACAAGGGCTTCACAGTGATCTTTTCTCTCCTGAAAAGACTAAATGTAGCAAACCTGGGTGCTAAGCGA
GATGCTACAGATTCTTGTGGGAATTCAAGTCATAGGAAATTGCAATAAAGAATTAGTATGCTTTATGTTT
TCTGGTAAAGGCAAAATTTAGAGGATGTCTTCCTTAGCAGATTTTTGTAGAAACATCTGAGAGAGGAAAG
AACCTTTTGACATGCTCTGTGCAACCAGGGTTCTGTGTTTGGACATCTGTCTGGGCTTAGGGAGAGCAAA
GAGGGCTGGCCAAGTCTTCCTAGGCTTTCTAATTAGATGGAAGCCTGTAGAATTTGAAGAAATAAAGAAG
TGTCTCCTCAATCAAGAAAGTGGCTACACAATATGCCAATANTCTTTGAAGATTTGACATTTGCAGAAGA
TAGGAAAAA

2、序列相似性


相似的序列--相似的结构--相似的功能 </br>

用identity(一致度)和similarity(相似度)来量化序列的相似程度

比如 序列CLHK 与CIHL的一致度就是2/4=50%

==那么如何衡量相似的残基呢?==

3、替换记分矩阵

反映残基之间相互替换率的矩阵 即描述残基间的相似程度,包括DNA和蛋白质替换记分矩阵

  1. DNA替换记分矩阵

    • 等价矩阵
      相同核苷酸替换得分1分,不同的0分,较少使用
    • 转换-颠换矩阵
      保持环数不变的替换(A→G,C→T)叫转换,环数变化的叫颠换,在自然界中转换比颠换更常见,所以转换为-1,颠换为-5,相同的为1
    • BLAST矩阵
      相同的为5,不同的为-4,大量比对的结果(经验)
      矩阵
  2. 蛋白质替换记分矩阵

    • 等价矩阵
      相同得1分,不同得0分
    • PAM矩阵(point accepted mutation)
      替换频繁的氨基酸之间得分就高。基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值,由统计方法得到。PAM-1自乘n次,可以得到PAM-n ,表示发生了更多次突变。我们需要根据要比较的序列之间的亲缘关系远近,来选择适合的PAM矩阵
PAM250

氨基酸差异及编号的选择?

PAM后面的数体现的是序列的差异度,但不直接等于差异度,只是成对应关系而已;BLOSUM后面的数体现是的序列的相似度并且直接等于相似度。所以我们看到,随着差异度的增大,适用的PAM矩阵后面的编号是增大的,而BLOSUM矩阵后面的编号是减小的。

氨基酸差异与矩阵编号
亲缘关系与矩阵选择

对于关系较远的序列之间的比较,由于PAM250是通过矩阵自乘推算而来的,所以其准确度受到一定限制。相比之下BLOSUM矩阵更具优势。对于关系较近的序列之间的比较,用PAM或BLOSUM矩阵做出的比对结果,差别不大。

有了替换记分矩阵,就可以知道哪些氨基酸是相似的

如序列CLHK与CIHL,我们可以从替换记分矩阵中读出I和L相似,K和L不相似。因此,它们的相似度就是2个相同的加上1个相似的,除以长度4,等于75%。

两个序列的长度不相同,怎么计算它们的一致度和相似度呢?

上一篇下一篇

猜你喜欢

热点阅读