信息论(熵&信息增益&增益率&gini指数)

2019-06-08  本文已影响0人  田浩thao

1、信息熵(Ent(D))

    用来度量一组样本集合的纯度(信息熵越小,纯度越高)。
假设在集合D中第k类的占比为p_{k}(k=1,2, \ldots,|\mathcal{Y}|),则D的信息熵为:

\operatorname{Ent}(D)=-\sum_{k=1}^{ | \mathcal{Y |}} p_{k} \log _{2} p_{k}

2、信息增益(Gain(D,a))

    用来表示当利用某属性(特征)对样本进行划分后,其纯度提升(一般信息增益越大,则属性划分后所获得的纯度提升越大)。

\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)

上式表示对样本集合D利用属性a进行划分后的信息增益(属性a的取值有\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}),其中D^{v}表示D中所有在属性a上取值为a^{v}的样本集合。
注:决策树ID3就是利用信息增益选择划分特征的。
缺点:这样选择的特征偏好取值类别较多(v较大)的特征(例如某个特征的取值类别数等于样本数,则根据此特征划分之后,样本的纯度都已经达到了最大)。

3、增益率((D,a))

    为了解决信息增益的在选择特征上的偏好,故提出增益率。

(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}
其中:
\mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}
(上式称为a的固有属性,\mathrm{IV}(a)随着v增大而增大)

注:决策树C4.5就是利用增益率选择划分特征的。
缺点:这样选择的特征偏好取值类别较少(v较小)的特征。
所以选择特征时:先利用信息增益选出高于平均水平的特征,然后再从这些特征中选择增益率最高的特征。

4、基尼指数(Gini(D))

\begin{equation} \begin{aligned} \operatorname{Gini}(D) &=\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} \\ &=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2} \end{aligned} \end{equation}
通过上式可以看出,基尼指数反映的是两个样本标记不一致的概率,所以基尼指数越小,则纯度越高。

对于特征a,其基尼指数为:
\begin{equation} (D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right) \end{equation}
注:CART决策树就是利用基尼指数选择划分特征的。

上一篇 下一篇

猜你喜欢

热点阅读