5.序列比对（贯穿所有的生物信息学）

2019-11-05 本文已影响0人伯涵_75dc

2019.10.22

勤奋，在思考和文献中游走。

1. 序列比对、DNA序列比对、蛋白质序列比对、BLAST比对搜索、理解BLAST输出结果。

2. 和人最近的是黑猩猩。杨树基因组有4亿个bp。

3. 基因：有启动子和终止子，之间有内含子和外显子。

远源蛋白：有些好的算法能比对到。

4. DNA序列比对：

点阵作图法

全局比对（Global Alignment）

局部比对（Local Alignment）

5. 测序一般得到的是5’-3’端

ACCGTG

GTGCCA 方向写反，其实是一条序列。

最早测的是蛋白质序列（Sanger测的牛胰岛素）

6. 全局比对 Needleman-Wunsch算法（1970）

动态规划DP（Dynamic Programming）

DNA比对插入、删除、匹配（match）、不匹配（mismatch）

7. 局部比对 Local Alignment

Smith-Waterman算法（1981）

蛋白质序列比对（氨基酸都是蛋白质序列）

1. PAM打分矩阵（1978 Dayhoff）

2. BLOSUM打分矩阵

1.1 PAM1

转移概率矩阵：经过1个进化单位（1百万年），A（丙氨酸）保持不变的概率为0.9867。

1.1 PAM250

转移概率矩阵：经过1个进化单位（2亿5千万年），A保持不变的概率为0.13。

PAM250 为PAM1自乘250次，是随机过程（隐马尔可夫过程），隐马尔可夫模型（HMM）

PAM250 在R中用PAM1写转置，写成小数，能在R中算出来。

PPT P29 20种氨基酸在自然界存在的概率

M 甲硫氨酸 1个密码子编码，1个改变可能就是致命的。

L 亮氨酸

2. BLOSUM打分矩阵

BLOSUM62 数据库中相似度为62%的序列总结出来的。

BLOSUM45 数据库中相似度为45%的序列总结出来的。

算分（Score）

Query 查询序列

Sbjct 目标序列

E值（Expect）两条序列的匹配度，相似性看E值，E值最小，排名最前。E值超过10，就不显示出来。

E值表示在一次数据库搜索中随机情况下期望获得得分大于或等于S的比对数目