信息熵、交叉熵、联合熵、条件熵、信息增益

2019-10-28 本文已影响0人陈淀薄发

1. 自信息

自信息是信息不确定性的衡量指标。信息发生的可能性越高，包含的信息越少，信息发生的可能性越低，包含的信息量越大。

定义公式：

image.png

2. 信息熵

信息熵是自信息的期望值，表示平均大小。它是表达信息量的大小，也是信息不确定性的度量。信息越是不确定，信息量越大，信息熵越高。信息越是有序，信息量越小，信息熵也越小。
信息熵还有一种解读就是信息的编码角度。如果信息越是有序的，极端情况只有一个值，其实用一个bit就可以表达，如果有N个值，那么就考虑用多个bit才能枚举这些值。越是无序，值越多，需要的信息表达的类别也越多，也意味着信息量越大。
定义公式：

image.png

3. 联合熵

对联合概览分布信息量求期望

image.png

4. 条件熵

对某个值的条件概率熵的期望。
注意：条件熵的定义不是直接对条件概率求信息熵。如下图公司所示，对于每个y取值，都有一个熵，因此要再对熵的基础上再计算期望，求出最终的条件熵。

image.png

5. 条件熵和联合熵的关系

H(Y|X) = H(X,Y) - H(X)
上面表示，联合分布新增的信息量，是有条件熵带来的。

6. 相对熵

衡量真实值和预测值差异的大小的度量。应用场景：机器学习中，需要通过模型训练预测真实值的分布，那么如何评价预测值和真实值的差异呢？就可以通过相对熵来拟合
公式如下：

image.png

说明：如果预测分布和真实分布相等，那么相对熵就是0。也就是说这个值越小，预测值和真实值越接近。反之，差异越大。
非负数性证明

image.png

7. 交叉熵

对上面相对熵的公式变换之后，可以发现：

image.png

由于真实值的熵是一个定值，因此使用交叉熵表示真实值和预测值之间的差异。

image.png

8. 信息增益（互信息量）

衡量两个变量的相关程度。
定义公式，如下：对求期望

image.png

根据公式可以知道，相关程度越高，互信息量越大。反之，越小。如果两个变量完全独立，那么p(x,y) = p(x)p(y)，带入上面的公式，此时的信息增益为0。

其中log部分又称为PMI（Pointwise Mutual Information）

image.png
信息增益的一个应用：在决策树分类模型中，我们在选择特征进行分裂的时候，选择新信息增益最大的特征进行分裂，这样一次分裂最大程度的减少了整个数据集的不确定性。

9. 互信息量和信息熵的关系

V(X,Y)= H(X)+H(Y)-H(X,Y) = H(Y)-H(Y|X)

10. 增益率

使用信息增益在决策分类模型中，有一个问题。就是会发现信息增益大的特征，总是枚举值特别多的特征。这个比较好理解，比如极端情况下，对于特征X来说，每个样本的取值都不同，也就是说对于每个样本的x取值来说，只有一个y值，那么p(y|x) = 1，也就是x和y相关性很高，这样的话，信息增益也是最大的。为了解决这个问题，就不能直接使用绝对值来看信息增益，需要使用信息增益比率来反映相关性。
这个定义，其实并不能难想。跟我们在统计一个公司的业绩的时候，看同比增长量，也看同比增长率。同比增长率的定义就是 YOY = (today-last)/last。
那么相应的，增益率的定义就是 gain_ratio = (H(Y) - H(Y|X)) / H(Y|X) = V(X,Y)/H(Y|X)

信息熵、交叉熵、联合熵、条件熵、信息增益

1. 自信息

2. 信息熵

3. 联合熵

4. 条件熵

5. 条件熵和联合熵的关系

6. 相对熵

7. 交叉熵

8. 信息增益（互信息量）

9. 互信息量和信息熵的关系

10. 增益率

猜你喜欢

热点阅读

信息熵、交叉熵、联合熵、条件熵、信息增益

1. 自信息

2. 信息熵

3. 联合熵

4. 条件熵

5. 条件熵 和联合熵的关系

6. 相对熵

7. 交叉熵

8. 信息增益（互信息量）

9. 互信息量和信息熵的关系

10. 增益率

猜你喜欢

热点阅读

5. 条件熵和联合熵的关系