Parameter Estimation
2020-11-02 本文已影响0人
shudaxu
我发现,很多同学仍然对MLE,MAP,Bayesian Estimate概念仍然比较模糊
之前文章也讲过:
https://www.jianshu.com/p/3e7a65e03e7f
https://www.jianshu.com/p/6d5430b21044
https://www.jianshu.com/p/b3ebe2752d75
这里拿一个实际的例子来讲解:
- 我们有一枚硬币,前10次扔出去其中8次是正面,问第十一次扔出去,会是哪面?
- 面对这样的问题,我们首要需要思考的就是,如何对问题建模。对问题建模,当然要从问题的答案入手。问第11次抛,是哪面。首先,是哪面我们很自然地将其答案归结为一个概率问题。其次,从这个概率找寻其根源,抛出来是哪面的概率由什么决定?由于本身该实验为多重伯努利,其多次实验结果间互相独立,所以第11次的实验与前10次是独立的,其本质是由硬币的质量分布决定。这样,我们就明确了问题的假设和框架(只需要求解硬币的质量分布即可)。即:
D:抛10次8次正面。
theta:硬币的质量分布。(可以直接参数化为硬币单次抛正面的概率p) - 则各个估计建模如下:
MLE:argmax{theta} P(D | theta)
MAP:argmax{theta} P(theta | D) = argmax{theta} P(theta) * P(D | theta) / P(D)
Bayesian Estimate:P(theta | D) = P(theta) * P(D | theta) / P(D) - MLE求解过程:
这个实验框架比较简单明确,其过程只需要求解 P(D | theta) 即可,其本身是经典的N重伯努利,很简单就能参数化(这里的参数p其实就是theta,n,m都是数据事实D)然后对这个式子求argmax解出p即可:
P(D | theta) = p ^ n *(1-p) ^ m
D为事件n次正,m次反。p为其为正面的概率(theta) - MAP求解过程:
MAP相对于MLE,引入了先验概率(一般来说P(D)为常量,求解argmax时可以忽略【这里P(D)为常量,并不是说P(D)=1,而是无论theta如何变化,P(D)的值都是一样的,可以看下面Bayesian估计中用全概率公式对P(D)的拆解计算,其结果是对theta的积分,所以与theta无关】),一般先验概率都是通过我们的假设得到的,比如:硬币质量分布是某个参数的正太分布。(比较贴近实际与认知,大部分工厂制造出来应该是比较均匀的,当然,这个假设本身也是相对比较粗略的)
将theta的分布参数化写出,例如,假设p~N(u, sigma),u为0.5,sigma为1,其概率密度函数PDF为f(p)
所有参数化完为:
argmax{p} :f(p) * p ^ n * (1-p) ^m
MAP即求解出使上述表达式最大的p即可 -
Bayesian Estimate求解过程
MLE和MAP都是计算出一个使概率最大的theta值,而Bayesian Estimate是给出整个概率分布。
其求解前面的步骤与MAP是一致的,唯一的区别是,MAP和MLE都是求一个最值,其分母P(D)被忽略了,而在贝叶斯估计中,其分母不能被忽略。
其结果即是将
F(p) = f(p) * p ^ n * (1-p) ^m / P(D)
然后将P(D)用全概率公式化简:
P(D) = Sigma P(D| theta) *P(theta) 【这里Sigma对于非离散变量来说就是在theta定义域上的积分】
将P(D)带入后,整个等式作为贝叶斯估计后的概率密度函数即可。
image.png
其实仔细看一下,贝叶斯估计的分子分母还是挺类似的。分母是其参数在整个先验概率分布下,条件概率的积分,类似作为一个标准化的矫正值。分子是其参数在某一个特定取值情况下,先严概率与条件概率的积(联合概率)