信息论、最大熵模型、EM算法
2019-10-19 本文已影响0人
陈文瑜
基础概念
- 什么是信息
当一件事情(宏观态)有多种可能情况时,这种情况(宏观态)对某人而言具体有哪些情况(微观态)的不确定性 叫做熵。
而能够消除某人对这件事(宏观态)不确定性的事情 叫做信息。
熵和信息数量相等,意义相反(消除熵 = 获取信息)
数据 = 信息 + 噪音
- 量化信息
选择的参考事件是 只有两种等概率情况的事件,0 1 (同时也是计算机存储信息的方式
)
举例:抛掷硬币3 次 出现的可能情况为8种,
则抛掷硬币次 所包含的熵 有
,即
个不确定情况 相当于
个硬币抛出的结果
![](https://img.haomeiwen.com/i12661548/2a4afb3608683d89.png)
求得提供信息后剩余的总熵 即有一半可能是C提供了的信息
熵表示的是不确定性,相加是所有剩余的不确定性总和。2-1.79=0.21bit表示的是消除熵 = 获取的信息 即提供的信息量
自信息
- 信息:
如果说概率
是确定性的度量,那么信息就是对不确定性的度量
- 熵:自信息的期望
熵是对平均不确定的度量
单个值
如果结果只有两个,那么熵为是不是和逻辑回归的损失函数一样丫
![](https://img.haomeiwen.com/i12661548/e517077f719a98c1.png)
-
三点分布的熵图
三点分布.png
-
理解
均匀分布是最不确定的分布,比如硬币的正反面,你猜不出下一次到时是正面还是反面。
互信息
- 定义
可以理解为,我们在得知了部分条件下
的情况,那么
的剩余信息就逐渐变少。
- 平均互信息