信息的度量——熵

2019-10-20  本文已影响0人  井底蛙蛙呱呱呱

信息熵:用来衡量事件不确定性,不确定性越大,熵越大。

对任意一个随机变量X,其熵定义为:


条件熵:有两个随机变量X和Y,在Y事件确定后X的不确定性的大小称为条件熵。条件熵的定义如下:

条件熵

互信息:信息的作用在于消除事件的不确定性,互信息作为两个事件(X,Y)相关性的度量,即在确定了其中一个事件Y的前提下,对消除另一个事件X的不确定性所提供的信息量。互信息的定义如下:

互信息
确定了事件Y之后事件X的不确定性即条件熵H(X|Y),因此互信息又可表示为:I(X; Y) = H(X) - H(X|Y),即事件X总的不确定性 — 剩余的不确定性 = 确定Y使X不确定性减少的部分。推导部分如下:
互信息推导过程 通过下面的图可以更好的理解信息熵: 熵、条件熵、互信息

上图中红色圆圈表示事件X的熵H(X),蓝色圈表示事件Y的熵,两个圈圈合起来的面积表示联合熵H(X, Y),而纯色的部分则表示条件熵(减去已知事件导致的熵减少),中间的交集互信息I(X; Y)表示事件X和Y的相关性。

相对熵(也即KL散度):相对熵也用于衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相关性。定义如下:

相对熵
关于相对熵的三个结论:
1、对于两个完全相同的函数,他们的相对熵等于零;
2、相对熵越大,两个函数的差异越大,反之亦反;
3、对于概率分布或概率密度函数,若取值均大于零,相对熵可以度量两个随机分布的差异性。

需要注意的是KL散度是非对称性的,即:



KL散度为什么不对称的一点解释

参考:
《数学之美》 吴军.

上一篇 下一篇

猜你喜欢

热点阅读