生信gene family

5.序列比对(贯穿所有的生物信息学)

2019-11-05  本文已影响0人  伯涵_75dc

2019.10.22 

勤奋,在思考和文献中游走。

1. 序列比对、DNA序列比对、蛋白质序列比对、BLAST比对搜索、理解BLAST输出结果。

2. 和人最近的是黑猩猩。杨树基因组有4亿个bp。

3. 基因:有启动子和终止子,之间有内含子和外显子。

远源蛋白:有些好的算法能比对到。

4. DNA序列比对:

点阵作图法

全局比对(Global Alignment)

局部比对(Local Alignment)

5. 测序一般得到的是5’-3’端

ACCGTG

GTGCCA 方向写反,其实是一条序列。

最早测的是蛋白质序列(Sanger测的牛胰岛素)

6. 全局比对  Needleman-Wunsch算法(1970) 

动态规划DP(Dynamic Programming)

DNA比对 插入、删除、匹配(match)、不匹配(mismatch)

7. 局部比对 Local Alignment

Smith-Waterman算法(1981)

蛋白质序列比对(氨基酸都是蛋白质序列)

1. PAM打分矩阵 (1978 Dayhoff)

2. BLOSUM打分矩阵

1.1 PAM1

转移概率矩阵:经过1个进化单位(1百万年),A(丙氨酸)保持不变的概率为0.9867。

1.1 PAM250

转移概率矩阵:经过1个进化单位(2亿5千万年),A保持不变的概率为0.13。

PAM250 为PAM1自乘250次,是随机过程(隐马尔可夫过程),隐马尔可夫模型(HMM)

PAM250 在R中用PAM1写转置,写成小数,能在R中算出来。

PPT  P29 20种氨基酸在自然界存在的概率

M 甲硫氨酸 1个密码子编码,1个改变可能就是致命的。

L 亮氨酸

2. BLOSUM打分矩阵

BLOSUM62 数据库中相似度为62%的序列总结出来的。

BLOSUM45 数据库中相似度为45%的序列总结出来的。

算分(Score)

Query 查询序列

Sbjct 目标序列

E值(Expect)两条序列的匹配度,相似性看E值,E值最小,排名最前。E值超过10,就不显示出来。

E值表示在一次数据库搜索中随机情况下期望获得得分大于或等于S的比对数目

上一篇 下一篇

猜你喜欢

热点阅读