决策树

决策树

2018-11-27  本文已影响154人  Daily_Note

决策树

1.决策树原理

2. 衡量标准

如何决策一个节点的选择呢?

3. 信息增益

4. 决策树算法

  1. ID3:信息增益(有什么问题呢?)
    • 在算信息增益是,有意的忽略了编号那一列,若编号也作为一个候选划分属性,每一个编号都是一个各自的叶子节点,算出熵值等于0,信息增益是最大的,选特征的时候就会选到“编号”这个特征,对于划分类别没有用。
  2. C4.5:信息增益率(解决ID3问题,考虑自身熵)
    • 公式: 信息增益率公式

      其中


      image.png

      属性a的可能取值数目越多,IV(a)的值通常会越大

  3. CART:使用GINI系数来当做衡量标准

5. 连续值处理

  1. 连续属性离散化技术处理
    • 最简单的策略是“二分法”
    • 对属性a中不同的取值进行排序,基于划分点t将数据集划分为两个子集,一个子集中的数据均小于t,另一个子集中的数据均大于t。从而来达到分类的效果。

6. 决策树剪枝策略

  1. 预剪枝
  1. 后剪枝
上一篇下一篇

猜你喜欢

热点阅读