ID3

2018-12-21  本文已影响9人  苏啦啦哇咔咔

决策树方法最早产生于上世纪60年代,到70年代末。由JRossQuinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。(比较于随机选择属性作为分裂节点来说,每次选择信息增益最大的属性可以减少树的深度。)

基本思想:

从上至下,分而治之的递归过程。
对当前例子集合,计算属性的信息增益;选择信息增益最大的属性Ai;把在Ai处取值相同的例子归于同一子集,Ai取几个值就得几个子集;对依次对每种取值情况下的子集,递归调用建树算法,即返回a;若子集只含有单个属性,则分支为叶子节点,判断其属性值并标上相应的符号,然后返回调用处。

属性选择

基于熵的信息增益

终止条件

1.数据已经不能继续再分
2.所有属性都已用尽
3.该群数据没有任何未处理的数据

优点

缺点

Python实现


上一篇 下一篇

猜你喜欢

热点阅读