信息论基础——统计自然语言处理基础笔记

2018-05-31 本文已影响27人个革马

在香农的信息论里面，把信息本身看成是一个随机变量，因此要量化信息，自然就是同随机变量的概率以量化。

关于熵的数理运算完全可用概率来理解，依然讲究变量之间的相互独立，同时概率之间相乘，在熵运算中变为可加性，变成相加。

熵也可以从编码角度理解，熵就是对一个随机变量最短的平均编码程度。

1. 自信息

即随机变量等于某个事件的信息量。可以从编码的角度来理解，log是把事件编码之后所用位数的求解函数。

从现实意义理解，就是一个事件可能出现情况的混乱程度。可能发生的情况越多，可能发生的概率越大，则混乱程度越大。
从数学上理解，即随机变量每种可能出现情况的自信息的期望——信息量的期望值。

即两个随机变量组合成的联合变量的信息熵。
当且仅当，X 和 Y 相互独立, 整个系统的熵等于H(X) + H(Y).

特性：

2）子可加性 (Subadditivity) H(X,Y)≤H(X)+H(Y)

在已经知道X的情况下，Y的熵

需要注意的一点是，条件熵是X的所有情况下Y信息熵之和。

H(X,Y) = H(X) + H(Y|X)
H(X₁,...,X_n) = H(X₁) + H(X₂|X₁) + ... + H(X_n|X₁,...,X_n-1)

从此处可见熵的可加性，已知X情况下Y的熵加上X的熵等于X，Y均未知的熵。
其实上述式子把H换成p，把+换成×，完全就是条件概率。

简单来说就是，已知X情况下Y的信息熵减少的量。X，Y相互独立的时候，互信息为0，因为 H(X|Y) = H(X)。
所以，互信息可以看成是X和Y两个变量之间的相关性的定量分析，互信息越大，相关性越强。

在噪声信道模型中，香农把互信息作为信道质量的考量依据。计算输入发出信号X和接受信号Y的互信息，就可知道信道容量。互信息越大，说明XY相关性越强，从而有Y推知X的可行性越高。

p为真实分布，q为假设分布。用真实出现的情况，计算假设分布q的信息量，并且求均值。就可以得到现在所得到的分布q在真实情况的熵（编码长度）

自然语言处理中的交叉熵：

语言样本很大的时候不必计算加权平均，所以有

当n足够大的时候有：

相对熵 = 交叉熵 - 信息熵
求出真实分布与我们学习得到的分布是否一致

perplexity = 2^交叉熵