深度学习-推荐系统-CV-NLP大学,考研,学习机器学习与数据挖掘

模式识别课程(二)-参数估计:最大似然估计和贝叶斯估计

2019-10-19  本文已影响0人  阿瑟_TJRS

目录

0. 前言
0. 基本概念
1. 最大似然估计(Maximum-Likelihood Estimation,ML)
2. 贝叶斯估计(Bayesian Estimation)
3. 无监督参数估计
4. 最大期望算法(Expectation Maximization,EM)
5. 高斯混合模型EM参数估计实现

前言

0. 基本概念

相关概念定义如下:

1.最大似然估计(Maximum-Likelihood Estimation,ML)

1.1基本假设
1.2基本原理

𝒟={𝑿1,…,𝑿𝑛},设各样本按条件概率密度 𝑝(𝐱|𝜃)从总体中独立抽取,有
\color{red}{P(\mathit{D}|\theta)=p(\mathbf{X}_1,...,\mathbf{X}_n|\theta)=\prod_{k=1}^{n}p(\mathbf{X}_k|\theta)}
我们将P(\mathit{D}|\theta)称为参数\theta对于样本集D的似然函数


所以最终的目的就是对似然函数求最大值,最大似然估计的方法也因此而来
1.3微分求解

当似然函数为可微函数,可以通过求导计算出最大值,得出估计值

注意:并不是所有似然函数都可微分!!!
1.4示例

2. 贝叶斯估计

2.1基本思想
2.2 贝叶斯估计
2.3 贝叶斯学习

通过上一节对贝叶斯估计的过程的分析,可以知道贝叶斯估计为了得到最终的概率分布情况(估计概率密度),采用贝叶斯公式计算参数的后验概率,进行了问题的转换。
贝叶斯学习,则不经过中间的参数估计步骤,\color{red}{直接由样本集推断总体的概率分布}

注意与的差别,前者表示数据分布情况的参数,后者则是数据具体的分布情况,得到后可以得到具体的数据分布函数,从而知道数据的分布情况即

具体求解过程

至此我们得到了可以用于贝叶斯学习的公式,参数学习的迭代过程如下:
随着n 值的增加, 𝜽的相应后验概率密度一般会变得越来越尖锐。
若上述概率密度函数序列在𝒏→∞时 , 收敛于以真值参数 𝜽为中心的狄拉克 𝜹函数,则称相应的学习过程为贝叶斯学习过程
上述式子中为样本集数据,可以看出贝叶斯学习实现了从样本到总体分布的推导学习
2.4 贝叶斯学习示例
注意上面的结果,先得到了参数的估计值,所以第一个图反映的是参数的情况,第二图才是概率密度的估计情况,贝叶斯学习的结果是在0到8间是均匀分布,而8到10存在其他分布,所以概率密度图中函数直线部分的值小于0.125(1/8)。
2.5 贝叶斯估计总结
主要的问题就是上述的两步:
1 计算参数后验密度函数
2 计算类条件密度
两类估计方法的差别 联系: 最大似然估计可解释为具有均匀先验的最大后验概率估计。当训练样本数趋于无穷大时,两者效果一致。
贝叶斯估计方法有很强的理论和算法基础。但在实际应用中,最大似然估计更简便,且设计出的分类器的性能几乎与贝叶斯方法得到的结果相差无几。
2.6 参数估计方法总结

3. 无监督参数估计

3.1 问题
3.2 求解方法

4. 最大期望算法(Expectation Maximization)

4.1 基本概念
4.2 EM原理
4.3 EM在无监督参数估计中的应用

第3节中提及的无监督参数估计(即混合模型的参数估计),在P(w_i)未知的情况,如何求解,可以用EM算法完成:


完整的算法流程如下所示:
4.5 EM对高斯混合模型的估计

5. 高斯混合模型EM参数估计实现

实现过程请见 https://www.jianshu.com/p/2da84659ba83

上一篇 下一篇

猜你喜欢

热点阅读