常用的参数估计

2018-10-28 本文已影响0人高永峰_GYF

1 参数估计

在很多的机器学习或数据挖掘的问题中，我们所面对的只有数据，但数据中潜在的概率密度函数是不知道的，其概率密度分布需要我们从数据中估计出来。想要确定数据对应的概率密度分布，就需要确定两个东西：概率密度函数的形式和概率密度函数的参数。

在机器学习的教科书上，我所看到的情况都是：给了一堆数据，然后假设其概率密度函数的形式为高斯分布，或者是混合高斯分布，那么，剩下的事情就是对高斯分布的参数，μ和 σ2 进行估计。所以，参数估计，便成了极其最重要的问题。

其实，常用的参数估计方法有：极大似然估计（MLE）、最大后验估计（MAP）、贝叶斯估计、最大熵估计、混合模型估计。他们之间是有递进关系的，想要理解后一个参数估计方法，最好对前一个参数估计有足够的理解。

1.1 极大似然估计（MLE）

MLE最大似然估计与MAP最大后验估计

线性回归的概率解释，其中说明了以平方误差维损失函数的最小二乘法和极大似然估计的等价性。

最大似然估计过程

在最大似然估计（MLE）中，将θ看做是未知的参数。说的通俗一点，最大似然估计是θ的函数，其求解过程就是找到使得最大似然函数最大的那个参数θ。

1.2 最大后验估计（MAP）

MLE最大似然估计与MAP最大后验估计

在最大后验估计（MAP）中，将θ看成一个随机变量，并在已知样本集{x1,x2,...,xN}的条件下，估计参数θ。

最大后验估计过程

在最大似然估计中，参数θ是一个定值，只是这个值未知，最大似然函数是θ的函数，这里θ是没有概率意义的。但是，在最大后验估计中，θ是有概率意义的，θ有自己的分布，而这个分布函数，需要通过已有的样本集合X得到，即最大后验估计需要计算的是 p(θ|X)。

MAP和MLE的区别是：MAP是在MLE的基础上加上了p(θ)。这里需要说明，虽然从公式上来看 MAP=MLE∗p(θ)，但是这两种算法有本质的区别，MLE将θ视为一个确定未知的值，而MAP则将θ视为一个随机变量。在MAP中，p(θ)称为θ的先验，假设其服从均匀分布，即对于所有θ取值，p(θ)都是同一个常量，则MAP和MLE会得到相同的结果。当然了，如果p(θ)的方差非常的小，也就是说，p(θ)是近似均匀分布的话，MAP和MLE的结果自然也会非常的相似。

1.3 贝叶斯估计

贝叶斯估计和MAP挺像的，都是以最大化后验概率为目的。区别在于：

1）极大似然估计和MAP都是只返回了的预估值。

2）MAP在计算后验概率的时候，把分母p(X)给忽略了，在进行贝叶斯估计的时候则不能忽略。

3）贝叶斯估计要计算整个后验概率的概率分布。

贝叶斯公式

样本X发生的概率，是各种条件下发生的概率的积分

贝叶斯表达含义

这里有一个技巧：

对于一个特定的likehood，如果我们选择了一个先验概率分布，通过上面公式的计算，得出的后验概率和先验概率是同分布的，这时候我们说这个先验分布是共轭先验。

可以举几个例子：

likehood为高斯分布，prior为高斯分布，则posterior也为高斯分布。

likehood为伯努利分布（二项式分布），prior为beta分布，则posterior也为beta分布。

贝塔分布（Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，在机器学习和数理统计学中有重要应用。在概率论中，贝塔分布，也称Β分布，是指一组定义在(0,1) 区间的连续概率分布。

likehood为多项式分布，prior为Dirichlet分布（beta分布的一个扩展），则posterior也为Dirichlet分布。

狄利克雷分布是一组连续多变量的概率分布，是多变量普遍化的Β分布，为了纪念德国数学家约翰·彼得·古斯塔夫·勒热纳·狄利克雷（Peter Gustav Lejeune Dirichlet）而命名，常用记法为Dir(\alpha)。狄利克雷分布常作为贝叶斯统计的先验概率。当狄利克雷分布维度趋向无限时，便成为狄利克雷过程（Dirichlet process）

根据上面的描述，在实践中我们往往会选择共轭先验来简化。在把后验概率推导为和先验概率一样的分布形式的时候，分母p(X)其实可以看做一个常数，往往充当了一个normalize，归一化的作用。

求解的时候，既然我们根据先验分布知道了后验是什么分布，那我们求出后验分布的期望值，即是需要估计的参数的值：

后验分布的期望

知道了后验是什么分布，那么求这个分布的期望值应该不是什么难事。

2 总结

全文对比分析了极大似然估计和贝叶斯估计，在进行参数估计的过程中，极大似然估计是想让似然函数极大化，而考虑了MAP算法的贝叶斯估计，其实是想让后验概率极大化。

贝叶斯估计相对于最大后验估计的好处还在于：贝叶斯估计计算了整个后验概率的分布，从而也能求出其他一些比如分布的方差之类的值来供参考。比如：计算出来方差太大的，我们可以认为分布不够好，从而把这个当做选择超参数的一个考虑因素。

实际上，贝叶斯估计会比MAP把估计的结果往先验结果“拉”的程度还提高了一些，从而使估计结果更靠近先验结果。

3 参考

极大似然估计，最大后验概率估计(MAP)，贝叶斯估计：https://blog.csdn.net/vividonly/article/details/50722042