信息论、最大熵模型、EM算法

2019-10-19 本文已影响0人陈文瑜

基础概念

什么是信息

当一件事情（宏观态）有多种可能情况时，这种情况（宏观态）对某人而言具体有哪些情况（微观态）的不确定性叫做熵。
而能够消除某人对这件事（宏观态）不确定性的事情叫做信息。
熵和信息数量相等，意义相反（消除熵 = 获取信息）
数据 = 信息 + 噪音

量化信息

选择的参考事件是只有两种等概率情况的事件，0 1 （同时也是计算机存储信息的方式 $bit$ ）
举例：抛掷硬币3 次出现的可能情况为8种， $2^3=8 \rightarrow log_2 8 = 3$
则抛掷硬币 $3$ 次所包含的熵有 $3bit$ ，即 $8$ 个不确定情况相当于 $3$ 个硬币抛出的结果

提供信息后总的熵.png
求得提供信息后剩余的总熵即有一半可能是C提供了的信息

熵表示的是不确定性，相加是所有剩余的不确定性总和。2-1.79=0.21bit表示的是消除熵 = 获取的信息即提供的信息量

自信息

信息： $i(x) = -log(p(x))$

如果说概率 $p$ 是确定性的度量，那么信息就是对不确定性的度量
$p(xy)=p(x)p(y)\quad i(xy) = i(x) + i(y)$

熵：自信息的期望

熵是对平均不确定的度量
$H(X) = - \sum_{x\in X}P(x) \times logP(X)$
单个值 $-xlog(x)$
如果结果只有两个，那么熵为 $-xlog(x)-(1-x)*log(1-x)$ 是不是和逻辑回归的损失函数一样丫

熵.png

三点分布的熵图

三点分布.png
理解

均匀分布是最不确定的分布，比如硬币的正反面，你猜不出下一次到时是正面还是反面。

互信息

定义 $i(y,x)=i(y)-i(y|x) = log(p(y|x)/p(y)) = i(x,y)$

可以理解为，我们在得知了部分条件下 $y$ 的情况，那么 $y$ 的剩余信息就逐渐变少。

平均互信息
$I(X;Y)=\sum_{x \in{X},y \in {Y}}P(x,y)log\frac{P(x,y)}{P(x)P(y)}$

上一篇下一篇

猜你喜欢

热点阅读