13. 信息增益率

2019-11-09  本文已影响0人  十里江城

1) ID3:使用信息增益

信息增益的弊端

假设ID作为上述实例中的一个特征,对于ID有14个分支,一个分支只有一个值,概率为1
即有些特征,其取值很多,但每个属性对应的样本个数很少,会导致“信息增益”非常大。

2) C4.5: 使用信息增益率

信息增益率

信息增益率 = 信息增益 / 自身熵值, 比如ID特征自己的熵(非常大,自己很不纯),之后信息增益率变很小

3) CART:Gini系数

4) 决策树的评价函数

损失函数C(T) = sum_{t (- leaf}_(N_t * H(t))
其中叶子节点t, t的样本值N_t, 对应的熵H(t), C(t)越小越好

5) C4.5算法:ID3的扩展

6) 决策树处理连续值

将连续型属性离散化,将属性值划分成不同的区间,比较各个分裂点Gain大小

选择连续值的分界点

贪婪法的“二分”数据集,比如十个数据划分则可能需要九个分界点

上一篇下一篇

猜你喜欢

热点阅读