@产品程序员

信息论基础——统计自然语言处理基础笔记

2018-05-31  本文已影响27人  个革马

在香农的信息论里面,把信息本身看成是一个随机变量,因此要量化信息,自然就是同随机变量的概率以量化。

关于熵的数理运算完全可用概率来理解,依然讲究变量之间的相互独立,同时概率之间相乘,在熵运算中变为可加性,变成相加。

熵也可以从编码角度理解,熵就是对一个随机变量最短的平均编码程度。

1. 自信息

即随机变量等于某个事件的信息量。可以从编码的角度来理解,log是把事件编码之后所用位数的求解函数。

2. 信息熵

从现实意义理解,就是一个事件可能出现情况的混乱程度。可能发生的情况越多,可能发生的概率越大,则混乱程度越大。
从数学上理解,即随机变量每种可能出现情况的自信息的期望——信息量的期望值。

3. 联合熵

即两个随机变量组合成的联合变量的信息熵。
当且仅当,X 和 Y 相互独立, 整个系统的熵等于H(X) + H(Y).

特性:

  1. 大于子系统的熵 H(X,Y)≥H(X)
    增加一个新系统不减少不确定性。

2)子可加性 (Subadditivity) H(X,Y)≤H(X)+H(Y)

4. 条件熵

在已经知道X的情况下,Y的熵

需要注意的一点是,条件熵是X的所有情况下Y信息熵之和。

连锁规则

H(X,Y) = H(X) + H(Y|X)
H(X1,...,Xn) = H(X1) + H(X2|X1) + ... + H(Xn|X1,...,Xn-1)

从此处可见熵的可加性,已知X情况下Y的熵加上X的熵等于X,Y均未知的熵。
其实上述式子把H换成p,把+换成×,完全就是条件概率。

5. 互信息

简单来说就是,已知X情况下Y的信息熵减少的量。X,Y相互独立的时候,互信息为0,因为 H(X|Y) = H(X)。
所以,互信息可以看成是X和Y两个变量之间的相关性的定量分析,互信息越大,相关性越强。

在噪声信道模型中,香农把互信息作为信道质量的考量依据。计算输入发出信号X和接受信号Y的互信息,就可知道信道容量。互信息越大,说明XY相关性越强,从而有Y推知X的可行性越高。

6. 交叉熵

p为真实分布,q为假设分布。用真实出现的情况,计算假设分布q的信息量,并且求均值。就可以得到现在所得到的分布q在真实情况的熵(编码长度)

自然语言处理中的交叉熵:

语言样本很大的时候不必计算加权平均,所以有

当n足够大的时候有:

7. 相对熵(Kullback-Leibler距离)

相对熵 = 交叉熵 - 信息熵
求出真实分布与我们学习得到的分布是否一致

8. 混乱度

perplexity = 2交叉熵

上一篇下一篇

猜你喜欢

热点阅读