信息论概念

2018-11-08  本文已影响8人  一心一意弄算法

熵是信息论的基本概念,又称为自信息,描述一个信息的不确定性。定义式如下:
H(X)=-\sum_{x\in R}^{ }p(x)log_2p(x)
其中约定,当x = 0 时候,p(x)log_2p(x) = 0
熵越大,信息的不确定性越大,正确估计的可能性越小。越不确定的随机变量需要越多的信息去确定其值。最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。这个理论广泛应用于自然语言处理中。

联合熵,条件熵

联合熵:H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y)条件熵:
H(Y|X) = -\sum_{x\in R}^{ }p(x)H(Y|X=x) =-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(y | x)
根据推到可以得出:
H(X,Y) = H(X)+H(Y|X)

互信息

根据连锁规则可以得出
H(X,Y) = H(X)+H(Y|X) = H(Y)+H(X|Y)
因此
H(X)-H(X|Y) = H(Y)-H(Y|X)
这个差叫做X,Y的互信息,记为I(X;Y),反应的是知道了Y之后X不确定性的减少量。可以理解为Y透露出了多少X的信息量。互信息体现了两个变量的依赖程度,值越大,依赖程度越高,相反,负值越大,Y对X的越不利。若互户型
公式如下:

各个概念之间的关系图:



互信息在词汇聚类,汉语言分词,词意消歧等方面有着重要的用途。

相对熵

也叫KL散度,KL距离。衡量相同事件空间里,两个不同概率分布的相对差距。
D(p||q) = \sum_{x\in X}p(x)log\frac{p(x)}{q(x)}
根据公式可以看出,求的是log\frac{p(x)}{q(x)}的期望。p=q时候,相对熵等于0。
互信息公式经过转化可以得到:
I(X;Y) = D(P(x,y)||p(x)p(y))
说明互信息可以衡量联合分布的独立性差距有多大。

交叉熵

衡量估计模型与与真实概率分布之间的差异。模型的交叉熵越小,模型的表现越好。一个随机变量X~p(x),进似模型为q(x),那么X与q的交叉熵为:
H(X,q) = H(X)+D(p||q) = -\sum_xp(x)logq(x) = E_p(log\frac{1}{q(x)})
由此一段文本L,把汗n个X_i:
H(L,q) = -\lim_{n ->\infty}\frac{1}{n}\sum_n^ip(x_i)logq(x_i)
p的真实概率可以由大数定理近似得到。

困惑度

在设计语言模型,通常用困惑度来代替交叉熵来衡量语言模型的好坏。
PP_q = 2^H(L,q)\approx 2^{-\frac{1}{n}logq(l_1^n)} = q(l_1^n)^{-\frac{1}{n}}

噪声信号模型

找到一个X,p(x)为X的概率模型。使得输出Y时,找到X',使得C = maxI(X;Y)。在自然语言中不考虑输入编码,即:
e' = argmax p(e|z) = argmax\frac{p(e)p(z|e) }{p(z)} = argmaxp(e)p(z|e)
在翻译应用中,假设要将中文z翻译成英文e,这里假设e是输入,我们要寻找e'
使得maxI(z;e)

参考文献

最大熵原理
https://baike.baidu.com/item/%E6%9C%80%E5%A4%A7%E7%86%B5%E5%8E%9F%E7%90%86
参考书籍:统计自然语言

上一篇 下一篇

猜你喜欢

热点阅读