信息论基础——统计自然语言处理基础笔记
在香农的信息论里面,把信息本身看成是一个随机变量,因此要量化信息,自然就是同随机变量的概率以量化。
关于熵的数理运算完全可用概率来理解,依然讲究变量之间的相互独立,同时概率之间相乘,在熵运算中变为可加性,变成相加。
熵也可以从编码角度理解,熵就是对一个随机变量最短的平均编码程度。
1. 自信息
即随机变量等于某个事件的信息量。可以从编码的角度来理解,log是把事件编码之后所用位数的求解函数。
2. 信息熵
从现实意义理解,就是一个事件可能出现情况的混乱程度。可能发生的情况越多,可能发生的概率越大,则混乱程度越大。
从数学上理解,即随机变量每种可能出现情况的自信息的期望——信息量的期望值。
3. 联合熵
即两个随机变量组合成的联合变量的信息熵。
当且仅当,X 和 Y 相互独立, 整个系统的熵等于H(X) + H(Y).
特性:
- 大于子系统的熵 H(X,Y)≥H(X)
增加一个新系统不减少不确定性。
2)子可加性 (Subadditivity) H(X,Y)≤H(X)+H(Y)
4. 条件熵
在已经知道X的情况下,Y的熵
需要注意的一点是,条件熵是X的所有情况下Y信息熵之和。
连锁规则
H(X,Y) = H(X) + H(Y|X)
H(X1,...,Xn) = H(X1) + H(X2|X1) + ... + H(Xn|X1,...,Xn-1)
从此处可见熵的可加性,已知X情况下Y的熵加上X的熵等于X,Y均未知的熵。
其实上述式子把H换成p,把+换成×,完全就是条件概率。
5. 互信息
简单来说就是,已知X情况下Y的信息熵减少的量。X,Y相互独立的时候,互信息为0,因为 H(X|Y) = H(X)。
所以,互信息可以看成是X和Y两个变量之间的相关性的定量分析,互信息越大,相关性越强。
在噪声信道模型中,香农把互信息作为信道质量的考量依据。计算输入发出信号X和接受信号Y的互信息,就可知道信道容量。互信息越大,说明XY相关性越强,从而有Y推知X的可行性越高。
6. 交叉熵
p为真实分布,q为假设分布。用真实出现的情况,计算假设分布q的信息量,并且求均值。就可以得到现在所得到的分布q在真实情况的熵(编码长度)
自然语言处理中的交叉熵:
语言样本很大的时候不必计算加权平均,所以有
当n足够大的时候有:
7. 相对熵(Kullback-Leibler距离)
相对熵 = 交叉熵 - 信息熵
求出真实分布与我们学习得到的分布是否一致
8. 混乱度
perplexity = 2交叉熵