信息论、最大熵模型、EM算法

2019-10-19  本文已影响0人  陈文瑜

基础概念

当一件事情(宏观态)有多种可能情况时,这种情况(宏观态)对某人而言具体有哪些情况(微观态)的不确定性 叫做熵。
而能够消除某人对这件事(宏观态)不确定性的事情 叫做信息。
熵和信息数量相等,意义相反(消除熵 = 获取信息)
数据 = 信息 + 噪音

选择的参考事件是 只有两种等概率情况的事件,0 1 (同时也是计算机存储信息的方式bit
举例:抛掷硬币3 次 出现的可能情况为8种,2^3=8 \rightarrow log_2 8 = 3
则抛掷硬币3次 所包含的熵 有3bit,即8个不确定情况 相当于3个硬币抛出的结果

提供信息后总的熵.png
求得提供信息后剩余的总熵 即有一半可能是C提供了的信息

熵表示的是不确定性,相加是所有剩余的不确定性总和。2-1.79=0.21bit表示的是消除熵 = 获取的信息 即提供的信息量

自信息

如果说概率p 是确定性的度量,那么信息就是对不确定性的度量
p(xy)=p(x)p(y)\quad i(xy) = i(x) + i(y)

熵是对平均不确定的度量
H(X) = - \sum_{x\in X}P(x) \times logP(X)
单个值-xlog(x)
如果结果只有两个,那么熵为 -xlog(x)-(1-x)*log(1-x)是不是和逻辑回归的损失函数一样丫

熵.png

均匀分布是最不确定的分布,比如硬币的正反面,你猜不出下一次到时是正面还是反面。

互信息

可以理解为,我们在得知了部分条件下y的情况,那么y的剩余信息就逐渐变少。

上一篇 下一篇

猜你喜欢

热点阅读