【生物信息】一阶马尔科夫链和隐马尔科夫模型

2019-02-20 本文已影响101人上弦同学

Markov-HMM

一阶马尔科夫链和隐马尔科夫模型

在网上收集50条细胞色素C的核心功能区域碱基序列作为正训练集，然后再收集50条碱基序列作为负训练集。收集一些数据作为测试集，通过一阶马尔科夫和隐马模型对测试集中的序列进行识别。

一阶马尔科夫模型 : 给定一段DNA序列片段，判别它是否为胞色素C的核心功能区域。（整体判别问题）
隐马尔科夫模型 : 给定一段DNA序列片段，识别细胞色素C的核心功能区域部分。（区域识别问题）

先分别从正训练集和负训练集中统计双核苷酸出现的频率
如A转移到A的概率为： AA在序列出现的次数在AA AC AG AT之和的比重
再根据计算出的频率构造正负训练集的状态转移矩阵

如对于AC，单项得分为log(AC在正训练集出现概率/AC在符训练集出现概率)
遍历序列，得分S为所有双核苷酸单项得分之和。
S>=0，认为正例
S<0，认为反例

选择最大可能状态路径（Most probable state path），即观察序列o1…oT发生概率最高的路径，作为寻求的隐状态路径。

解码问题：求解最可能的隐状态路径（通过+ -隐藏状态的分布识别目标区域）
主要采用viterbi算法实现
本实验中状态有8种{A+, C+, G+, T+, A−, C−, G−, T−}，构造8*8的转移矩阵，如下图所示：

image.png

通过状态转移矩阵，根据viterbi算法求出各个状态的概率，如下图所示：

image.png

该图由末端最大概率处进行回溯，得到隐状态路径。

image.png