从摸球看最大似然估计

2019-10-31  本文已影响0人  未不明不知不觉

写在前面

这里是我个人对最大似然估计的理解,参考了其他文章,不足之处敬请指出!

先来看一个问题

假设我们有一个瓶子A,里面有很多黑球和白球,其中黑球占70%,白球占30%,现在取出100个球,理想情况下其中黑球有几个白球有几个?我们不用看就知道用100*0.7=70,也就是黑球可能有70个白球有30个,这个就是根据我们参数(概率)已知对结果进行推测。

接下来换一个方向,假设我们不知道原来瓶子A里黑球白球的占比,取出来10个球,其中有8个黑球和2个白球,那么我们去推测什么样的概率(黑球白球的占比)才会使得我们取出来100个球,其中有70个黑球和30个白球这件事的概率最大,这里就是一个结果已知参数(概率)未知的问题了,最大似然估计就是用来解决这样的问题了

似然函数

上面我们每次取球是一个伯努利试验,那么我们假设取得黑球的概率为p,那么取得白球的概率为1-p,那么我们连续取10次,有8个黑球和2个白球可以用下面的式子表示:

L(p)=p^7(1-p)^3\;(1)

上面的式子就是该问题的似然函数,似然函数取最大值得p,代表着p取何值时获得当前结果的可能性最大

求似然最大值

上面的式子里有有连乘,直接计算难以计算,一般我们会把它转化为对数,然后求对数取最大值时p的值,(1)式取对数得到:

\begin{aligned} ln(L(p))=lnp^7+ln(1-p)^3\\ =7lnp+3ln(1-p) \end{aligned};(2)

再对(2)式求导:

\begin{aligned} ln(L(p))'=\frac{7}{p}-\frac{3}{1-p}\\ =\frac{7-7p}{p(1-p)} \end{aligned}

显然p=0.7的时候取得极值,这里我就不验证它是最大值了.

最大似然估计的数学表示

极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计

由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为

D={x_1,x_2,...x_N}

似然函数(likelihood function):

l(\theta)=p(D|\theta)=p(x_1,x_2,...,x_N|\theta)=\Pi_{i=1}^{N}p(x_i|\theta)

这里我们需要求\theta取何值时l(\theta)最大

求解极大似然函数

我们要求是似然函数最大的\theta值

\theta=argmax_\theta l(\theta)=argmax_\theta \Pi_{i=1}^{N}p(x_i|\theta)

为了方便分析,取对数似然函数:

H(\theta)=ln l(\theta)

一个参数的情况

若未知参数只有一个(二分类问题,\theta为一个数值),在似然函数满足连续可微的条件下,极大似然函数的估计值是下面微分方程的解:

\frac{dH(\theta)}{d\theta}=0

也就是求导,导数为0时\theta的值即为估计值

举个例子:
设随机变量X有分布律

X 1 2 3
P \theta 2\theta(1-\theta) (1-\theta)^2

|现取得样本[1,2,1],求\theta的极大似然估计
写出似然函数:

\begin{aligned} L(\theta)=P(X_1=x_1,X_2=x_2,X_3=x_3)\\ =P(X_1=1)P(X_2=2)P(X_3=1)\\ =\theta^2\times 2\theta(1-\theta)\times \theta^2=2\theta^5(1-\theta) \end{aligned}

写出对数似然函数:

lnL(\theta)=ln2+5ln\theta + ln(1-\theta)

若参数有S个(\theta为向量),那么:

\theta=[\theta_1,\theta_2,...,\theta_S]

求导:

\frac{dlnL(\theta)}{d\theta}=\frac{5}{\theta}-\frac{1}{1-\theta}

令导数为0,得:

\theta=\frac{5}{6}

多个参数的情况:

假设有S个参数:

[\theta_1,\theta_2,...,\theta_S]

我们写出梯度算子:

\triangledown_\theta[\frac{\delta}{\delta\theta_1},\frac{\delta}{\delta\theta_2},...,\frac{\delta}{\delta\theta_S}]^T

那么估计量是下面方程的解:

\triangledown_\theta H(\theta)=0

也就是对每个\theta_i求偏导,然后令各个偏导为0

最大估计的特点

最大似然估计的特点:

  1. 比其他估计方法更加简单;
  2. 收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;譬如上面我们估计的0.7和真实的概率0.8有所差距是因为我们的样本太小了.
  3. 如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果
上一篇下一篇

猜你喜欢

热点阅读