HMM数学推导—开篇
本章涉及到的知识点清单:
1、HMM定义
2、变量定义
3、两个假设
4、三个基本问题
5、极大似然优化失效
一、HMM定义
隐马尔可夫模型(Hidden Markov Model,HMM):由一个隐藏的马尔科夫链随机生成一个不可观测的状态序列(隐变量序列),再由各个状态(隐变量或者骰子)随机生成一个观测,由此产生一个观测序列的随机过程,属于生成模型
二、变量定义
HMM生成模型其中:表示第时刻的状态(隐变量或者骰子),则定义状态序列为:
每个状态均有相同的取值范围,可以理解成每个骰子都有N面取值结果,则定义状态值集合为:
且:对于任意,均有:
同理:表示第时刻由状态产生的观测(类似量子力学中的本征态),则定义观测序列为:
每个观测均有相同的取值范围,只是取值的概率各不相同,类似波函数的概率分布,则定义观测集合V为:
且:对于任意,均有:
HMM模型将参数分为三类,分别是:
(1)初始状态的概率分布:,表示初始时刻的第一个状态分别取每一个状态集合的概率,即第一个状态的概率分布,用的向量表示,即
(2)状态转移矩阵:,表示从时刻的状态转移到时刻的状态的概率,即隐变量之间的转移概率,用的矩阵表示,即
,其中:
(3)观测矩阵:,表示从时刻的状态观测到具体的概率,即当前隐变量产生观测的概率,用的矩阵表示,即
,其中:
综上:统一使用代表HMM的参数集合
三、两个假设
HMM涉及到大量的概率计算,为了使得推导简化和概率计算简化,HMM约定了以下2个假设
(1)齐次Markov假设:任意时刻的状态,只依赖于前一时刻的状态,与其它时刻的状态均无关,即
特别的,初始时刻的状态概率分布由参数决定
(2)观测独立假设:任意时刻的观测,只依赖于该时刻的状态,与其他无关,即
以上2个假设在后续的推导中经常会用到,能帮助我们很大程度上简化推导
四、三个基本问题
HMM只要解决以下三个基本问题
(1)Evaluation:概率计算问题,即:已知:模型参数和观测序列,求概率:
(2)Learning:学习模型参数问题,即:已知观测序列,求最优模型参数:
学习问题也是HMM基础问题中相对最复杂的,在MLE优化失效的情况下,通过EM优化算法来估计模型参数
(3)Decoding:解码问题,即:已知:模型参数和观测序列,求最优隐变量序列:
HMM的其余问题,都可以基于这三个基本问题变形出来
五、极大似然优化失效
下面我们以Evaluation问题为例,尝试应用MLE来推导概率的求解过程
很自然的将隐变量引入待求解的概率
将积分中的展开和应用齐次Markov假设:
化简1将积分中的展开:
化简2则可以写为:
时间复杂度其中,是一个重积分,可见即使不考虑内部计算,的计算也至少是阶的时间复杂度,我们需要更有效的算法来求解Evaluation