深度学习扩展_最大似然估计

2020-03-18  本文已影响0人  我_7

极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!

换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

例如,我们假定模型服从于正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。


Q(x;θ)输入有两个:x表示某一个具体的数据; θ表示模型的参数

如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数θ,出现x这个样本点的概率是多少。

θ_{ML}=\underset{θ}{\arg \max}\ Q(\mathbf{x};θ)=\underset{θ}{\arg \max} \prod_{i}^{m} Q(x_{i};θ)=\underset{θ}{\arg \max} \sum_{i}^{m} \ln Q(x_{i};θ)

由于重新缩放\sum_{i}^{m} \ln Q(x_{i};θ)并不会改变\underset{θ}{\arg \max} 的结果,即θ_{ML}=\underset{θ}{\arg \max} \frac{1}{m}\sum_{i}^{m} \ln Q(x_{i};θ)=\underset{θ}{\arg \max}\ \mathbb{E}_{\mathbf{x} \sim P}[\ln Q(\mathbf{x};θ)]

m趋于无穷的时候,最大似然函数是最好的渐进估计(也就是说对参数估计的准确度最高)

上面说到期望就是平均数随样本趋于无穷的极限,那么这句话是什么意思呢?

我们还是以上面的掷骰子为例子:

如果我们掷了无数次的骰子,然后将其中的点数进行相加,然后除以他们掷骰子的次数得到均值,这个有无数次样本得出的均值就趋向于期望。

个人理解:均值为多个随机变量的和再除以个数,相当于还是一个随机变量,当数量足够多的时候,这个随机变量会收敛,这个收敛的值为期望

由于 P与模型无关,即\arg \min \mathbb{E}_{x \sim P}[\ln P(x)-\ln Q(x)] \Leftrightarrow \arg \min \mathbb{E}_{x \sim P}[-\ln Q(x)]\Leftrightarrow \arg \max\ \mathbb{E}_{x \sim P}[\ln Q(x)]

所以一种解释最大似然的观点是将它看作最小化训练集上的经验分布P和模型分布Q之间的差异,可以通过KL散度来度量。

需要注意的是这种方法虽然简单,但是结果准确度严重依赖于 假设的模型分布Q 是否符合 潜在的真实分布。不能靠瞎猜就确定模型分布

上一篇下一篇

猜你喜欢

热点阅读