EM算法

2019-12-18 本文已影响0人 Zaker_cook

1. 什么是EM

2. EM算法流程是怎么样的

3. EM算法的优缺点

EM算法是一种从不完全数据或有数据丢失 的数据集中求解概率模型参数的最大似然估计方法。算法未知参数是 样本属于哪一个分布(理解为样本没有y值，也就是隐藏变量) 和 模型参数 。

1. 初始化模型参数 $\theta$ (相当于Kmeans算法中，初始化簇中心)

2. E步：根据初始化的模型参数，计算隐藏变量的后验概率 (相当于Kmeans算法中, 样本属于哪一个簇)

$Q_{i}(z_{i}) := P(z_{i}|x_{i})$

3. M步：根据E步计算的后验概率，更新模型参数 $\theta$ (相当于Kmeans算法中，更新簇中心)

$\theta = arg \ max_{\theta } \sum_{i} \sum_{z_{i}} Q_{i}(z_{i})log \frac{P(x_{i},z_{i})}{Q_{i}(z_{i})}$

4. 循环 2，3 步骤，直到收敛

优点

算法简单，稳定上升的步骤能非常可靠地找到“最优的收敛值”

缺点

对初始值敏感，模型参数会影响收敛效果

参考资料