信息熵和KL散度

2018-12-04 本文已影响0人 Jeffery_李俊峰

熵

熵在物理上是表示混乱程度，在信息论中，信息熵用以下方程表示,也就是对分布自信息的期望，单位取决于在计算中使用的对数的底：

E为期望函数，p为概率质量函数，I为自信息函数

离散的表达式：

若为概率为连续型，则要用积分去求

若概率越为均匀分布，则熵越大，变量的不确定性越大，把它搞清楚所需要的信息量也就越大。如AvsB，A队的胜率为100%，则我们不需要任何信息都能搞清楚A队肯定赢。但是若A队和B队的胜率各为50%，则我们要将哪队获胜确定下来所需要的信息量很大。

自信息I表示概率空间中的单一事件或离散随机变量的值相关的信息量的量度。它用信息的单位表示，例如bit、nat或是hart，使用哪个单位取决于在计算中使用的对数的底。如下图：

对数以2为底，单位是比特（bit）

对数以e为底，单位是纳特（nat）

如英语有26个字母，假设在文章中出现的概率相等，每个字母的自信息量（也称作编码长度，也就是在最优情况下，应该用多少比特去表示字母）为：

对该自信息的期望就是熵。

可以看出当字母出现概率越大时，表示该字母所应该用的比特数也越少，这也就是传说中的哈夫曼编码(Huffman Coding)。若现在假设文章中仅仅等概率存在A，B，C，则这三个字母的自信息为：

则我们只需要用两个比特（也就是00,01,10）就可以表示一篇文章

因此变量越均匀分布，自信息的期望就越大，也就熵越大（平均编码长度越长），也即最优表示变量所需用到比特数量的期望则越多，也能说明文章挈带的信息量就越多，把文章搞清楚所需要的信息量也就越大（比特数多了）。

交叉熵的公式如下：

本质上可以看成用p分布的编码方式去编码q分布，所得到的编码长度期望。

KL散度（相对熵）公式如下：

q对p的相对熵

用形象化地表示三者的关系：

第一行表示p所含的信息量/平均编码长度H(p)；

第二行是cross-entropy，即用q来编码p所含的信息量/平均编码长度|或者称之为q对p的cross-entropy；

第三行是上面两者之间的差值，即q对p的KL距离，KL距离越大说明差值越大，说明两个分布的差异越大。

注意这三者都是非负的。上面说的KL和cross-entropy是两个不同分布之间的距离度量，因此用H(p)来表示熵。如果是测量同一分布中两个变量相互影响的关系，则一般用H(X)来表示熵,如联合信息熵和条件信息熵。

参考自：https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)

参考自：https://blog.csdn.net/haolexiao/article/details/70142571