神经网络损失函数中的各种常见熵(信息熵、KL散度、交叉熵、互信息
2019-05-31 本文已影响0人
昭君姐
信息熵 Information entropy
对于离散的随机变量,首先定义其自信息
,它应该有以下两个特点:
-
应该依赖于概率分布
,是
的单调函数
- 观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和,即
,同时满足
基于上述特点,可定义,负号保证
。
熵表示对所有可能发生的事件产生的信息量的期望:
联合熵 Joint entropy
条件熵 Conditional entropy
相对熵 Relative entropy,也称为KL散度
分布的最佳信息传递方式来传达分布
,比用分布
自己的最佳信息传递方式来传达分布
,平均多耗费的信息长度为相对熵
设是离散随机变量
中取值
的两个概率分布:
KL散度是不对称的,即。JS散度解决KL不对称问题。
交叉熵 Cross entropy
用分布的最佳信息传递方式来传达分布
中随机抽选的一个事件,所需的平均信息长度为交叉熵
互信息 mutual information
一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性