最大熵和概率分布

2020-01-16 本文已影响0人 springzzj

概率论

我们需要描述一组数据时候，本质上需要描述每一个点。但是如果我们可以用分布去表示这些数据，就只需要均值或者方差分布参数，大大节省了存储空间。

离散型随机分布

伯努利分布：一次实验，结果只有两种结果。 $p(k)=p^k(1-p)^{(1-k)}, k\in\{0, 1\}$ ，期望： $p$ ，方差： $p(1-p)$

二项分布：n次伯努利实验正好得到k次成功的概率，单次成功的概率为p。当n=1的时候退化到伯努利分布。当p=0.5的时候，整体上和正态分布图形类似。 $p(k)=C_n^kp^k(1-p)^{n-k}$ ，期望： $np$ ，方差： $np(1-p)$

几何分布：进行n次伯努利实验，在获取成功前需要进行多少次实验。分布图形是越往前概率越大， $p(k)=(1-p)^{k-1}p$ , 期望 $\frac{1}{p}$ , 方差是 $\frac{(1-p)}{p^k}$

泊松分布：单位时间内独立事件发生次数的概率分布，它是二项分布n很大而p很小时的极限。泊松分布可以把单位时间切成n次，每次成功的概率为p，那么单位时间内出现k次的概率就是二项分布，所以泊松分布是二项分布的一种极限形式。它的分布图形也和二项分布类似，特别是n很大而p很小时。 $p(k)=\frac{e^{-\lambda}\lambda^k}{k!}$ , 期望和方差都是 $\lambda$ ,其中k是发生的次数， $\lambda$ 是发生的平均次数，当 $\lambda>=20$ 时，泊松分布趋向于正态分布。

指数分布：对应于泊松分布，指数分布是指两次独立事件发生的时间间隔的概率分布。
$p(k)=\lambda e^{-\lambda k}$ ，其中 $\lambda$ 是指单位时间内独立事件发生的次数。期望= $\frac{1}{\lambda}$ ，方差= $\frac{1}{\lambda^2}$

负二项分布：在一连串伯努利实验中，恰好在第r+k次实验出现第r次成功的概率。换句话说，是指出现第r次成功时所需要的总实验次数的概率分布。
$p(k,r,p)=C_{r+k-1}^{r-1}p^{r}(1-p)^{k}$ ，期望 $E(k)=\frac{k(1-p)}{p}$ , 方差 $D(k)=\frac{k(1-p)}{p^2}$

多项分布：二项分布的扩展。

连续型随机分布

均匀分布： $p(x)=\frac{1}{b-a}$ ，期望 $\frac{b+a}{2}$ ，方差 $\frac{(b-a)^2}{12}$

正态分布： $p(x)=N(\mu, \sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ ，期望 $\mu$ ，方差 $\sigma$ 。

指数分布：可以扩展到连续随机变量，仍然代表两次独立事件发生的事件间隔（实数）。公式和上面一致。

最大熵

那么以上的概率分布是如何来的呢？最大熵理论提供了一种解释的方法，概率分布是满足一定约束条件下的最大熵概率分布。对于一个随机变量来说，如果没有任何约束，我们大概率倾向于该随机变量符合均匀分布。对应到现实中，如果没有任何前提条件，我们认为事件发生的概率是相同的。比如骰子，我们会默认每一面的概率是1/6。最大熵概率分布满足一下条件：
$math max_pH(p)=-\int_yp(y)logp(y)dy, st. \int_yp(y)=1, p(y)>=0, \int_yp(y)*f_i(y)dy=a_i$
其中ai是预先定好的约束条件，比如均值、方差。使用拉格朗日乘子得到：

$math L(p,\mu,\lambda)=\int_yp(y)logp(y)dy - \mu_0p(y) + \mu_1(\int_yp(y)-1) + \sum_i\lambda_i(\int_yp(y)*f_i(y)dy-a_i)$
其中 $\mu,\lambda$ 都为正数，解为：
$math p^* = min_p max_{\mu,\lambda}L=max_{\mu,\lambda}min_pL$
假设y值固定在某个确定的值，对p求偏导：
$math \frac{\partial L}{\partial p} = logp + \frac{1}{ln2}-\mu_0 + \mu_1 + \sum_i\lambda_if_i(y) = 0$
等式两边乘以ln2，对logp进行换底：

$math lnp + 1 - \mu_0 + \mu_1 + \sum_i\lambda_if_i(y) = 0$
得到解p*：
$math p^*(y) = e^{ - 1 + \mu_0 - \mu_1 - \sum_i\lambda_if_i(y)} = c*e^{-\sum_i\lambda_if_i(y)}$

伯努利分布推导

约束条件：
$math f(y) = y\rightarrow\int_yp(y)*y=\mu, y\in\{0,1\}$
其中 $\mu$ 代表事件成功的概率，也是伯努利分布的期望值，得到 $c*e^{-\lambda}=\mu$
同时： $p(0) + p(1) = 1 \rightarrow c + ce^{-\lambda}=1$
由以上两式得到： $c=1-\mu, \lambda=-ln\frac{\mu}{1-\mu}$
综合以上： $p(y)=(1-\mu)*(\frac{\mu}{1-\mu})^y=(1-\mu)^{1-y}\mu^y$ , 我们就得到了伯努利分布的公式，伯努利分布是在约束期望值下的最大熵概率分布。