spark||flink||scala

最大似然估计的应用

2018-03-10  本文已影响37人  小碧小琳

一、似然函数

已知有一组样本X1,X2,...Xn,X服从分布律P{X=x} = p(x;θ),又设x1,x2,...xn是相应于样本X1,X2,...Xn的一个样本值,(已知分布,所以可以知道样本Xi的值取到xi的概率,也就可以知道,对于所有的样本来说X1,X2,...Xn取到x1,x2,...xn的概率。)
那么 ,若是 已知一组数据为x1,x2,...xn,那么可以认为,这是一组从样本中采样得到的值,那么事件{X1=x1,X2=x2,...Xn=xn}的发生的概率为

这一概率随着θ的取值而变化,他是θ的函数,L(θ)称为样本的似然函数。(这里的x1,x2,...xn是已知的样本值,都是常数。)

通俗的讲就是,我现在手里有一组数据,也知道这组数据的样本服从什么分布(不知道的就假设一个),那么我就可以认为每个数据是一个事件,发生的概率为P{X=x} = p(x;θ),那么这整组数据,是连续对样本采样得到的一个事件,这个事件发生的概率就是所有小事件的乘积。(也可以认为这组数据,是不断地对服从一定分布的样本采样得到的

二、最大似然估计法

由上面可知,假使现在有一组数据,样本服从一定分布,但是分布的参数θ并不知道,怎么求得这个θ?

由上面可知,既然事情已经发生了,那么就说明在参数θ下,这个事件发生(取得的手中的样本值)的概率L(θ)比较大,若估计出一个θ1和θ2,函数L(θ1)<L(θ2),那么我们就认为θ2更接近于参数θ,因为θ2更能使这件事情发生。所以,我们就是想要找到一个参数θ,使这个事件尽可能的发生,也就是说,L(θ)要尽可能的大

能使L(θ)最大的值,就作为参数的最大似然估计值。

三、最大似然估计法的应用

无论是在有监督还是无监督,判别模型还是生成模型,但凡是和概率有挂钩的,最终是模型是预测概率的,都少补了最大似然估计的应用。

3.1、有监督学习

3.1.1 逻辑回归分类(判别模型==>条件概率)

对于所有的样本来说,在样例取得m个值的情况下,m个类别分别是y的概率。就是这些小事件一起发生的概率。于是有极大似然函数:

image.png

于是此时,找到使L(θ)最大的参数θ,就能够使上述事件尽可能的发生, 也是最接近实际值的θ了。于是可以用来预测。

3.1.2、高斯判别模型(生成模型 ==>联合分布)

为什么是生成模型,因为这里认为,数据(样本,类别)都是在满足这些分布的情况下生成的。
判别的时候,模型表达的意思 ,“先采样生成类别y,再采样生成新来样例xi”,这个事件发生的概率,那个大,就说明更符合实际情况。比如在类别是1的情况下, 采样生成新来样例的概率是0.6,在类比是2的情况下采样生成新来样例的概率 是0.8,那么新来阳历属于类比2的情况更符合实际。

已有的m个数据对,就是取到m个(x,y)数据对的事件,它发生的概率为:

找到上式中的参数,使上述事件尽可能的发生,就是要估计的参数了。

并且,参数的实际意义是 可以根据表达式理解出来的。也就是最接近似然函数的情况下,参数的理想状况。
比如对上面目标函数求导以后得到各参数的值。其中

这里的φ代表类别是1的概率,就等于 样本中y=1对的个数除以样本总数m。

3.2、无监督学习

那么数据就是代表着,m个事件X=x同时发生的概率 :

但是,这个式子一开始并不好求,于是我们先随机为每个样例选一个相应的类别,,,接下来就是EM思想,可以看EM算法这一块。

每个类别的概率是所有样例的后验概率的平均值(参考GMM)

总之,最大化这个似然函数,最终得到的,也是我们想要的参数。

3.3 最大后验概率估计(MAP)

逻辑回归中的模型是,认为θ是一个常数,一个事件就是,在样例X=x的条件下,类别是y的概率。

而贝叶斯学派就认为,θ是一个随机变量,最大后验概率估计的模型是:

也就是认为,是先采样生成θ以后,再在x和θ的情况下,类别是y的概率。

二者(逻辑回归与MAp)都是通过极大似然来找到合适的θ,为什么说贝叶斯最大后验概率估计就能跟好的克服过拟合问题呢?

在《规则化和模型选择》中给出了解释。

上一篇 下一篇

猜你喜欢

热点阅读