信息的度量——熵
2019-10-20 本文已影响0人
井底蛙蛙呱呱呱
信息熵:用来衡量事件不确定性,不确定性越大,熵越大。
对任意一个随机变量X,其熵定义为:

条件熵:有两个随机变量X和Y,在Y事件确定后X的不确定性的大小称为条件熵。条件熵的定义如下:

互信息:信息的作用在于消除事件的不确定性,互信息作为两个事件(X,Y)相关性的度量,即在确定了其中一个事件Y的前提下,对消除另一个事件X的不确定性所提供的信息量。互信息的定义如下:

确定了事件Y之后事件X的不确定性即条件熵H(X|Y),因此互信息又可表示为:I(X; Y) = H(X) - H(X|Y),即事件X总的不确定性 — 剩余的不确定性 = 确定Y使X不确定性减少的部分。推导部分如下:



上图中红色圆圈表示事件X的熵H(X),蓝色圈表示事件Y的熵,两个圈圈合起来的面积表示联合熵H(X, Y),而纯色的部分则表示条件熵(减去已知事件导致的熵减少),中间的交集互信息I(X; Y)表示事件X和Y的相关性。
相对熵(也即KL散度):相对熵也用于衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相关性。定义如下:

关于相对熵的三个结论:
1、对于两个完全相同的函数,他们的相对熵等于零;
2、相对熵越大,两个函数的差异越大,反之亦反;
3、对于概率分布或概率密度函数,若取值均大于零,相对熵可以度量两个随机分布的差异性。
需要注意的是KL散度是非对称性的,即:


参考:
《数学之美》 吴军.