信息熵 GINI系数

2017-07-13 本文已影响0人点点渔火

熵（entropy）在统计学中是一个很重要的概念，用于特征的选择，衡量结果的不确定性，信息熵越小，结果越简单。

信息熵的计算公式：

信息熵

条件熵：
当一个特征固定以后，结果的不确定性即为条件熵：

条件熵

信息增益：
原熵-条件熵，即为这个已确定变量给系统带来的稳定性增益：

信息增益

H(c) 是分类结果的gain

当然特征带来的稳定性增益越大越好。但是有个问题，如果一个特征有非常多的value, 那么我们一个节点的分支也会对应很多，很容易造成过拟合

信息增益比：
信息增益的一个大问题就是偏向选择分支多的属性导致overfitting，信息增益比公式对value值多的情况进行的惩罚处理(尽管如此，还是要剪枝)

Infomation Gain Ratio

H(c) 是分类类别的熵，类别越多，熵倾向于越大；同理， H(X)是变量X的Gain, 变量X的取值越多，H(X)的值也会越大，惩罚除数越大：

H(X)

在决策树算法中，ID3使用信息增益，c4.5使用信息增益比。

Gini系数：
CART中采用了Gini系数来构造二叉决策树，二分类问题中，近似于熵之半，但计算要简单一些：

Gini系数

D表示全样本， p_i表示每种类别出现的概率, 极端情况p = 1 则Gini = 0 , 不纯度最低，最稳定。
类似的， Gini增益：

屏幕快照 2017-07-13 21.35.14.png