Decision Tree 决策树

2019-06-10 本文已影响0人 DejavuMoments

决策树（Decision Tree）是一种基本的分类与回归方法，在分类问题中，表示基于特征对实例进行分类的过程，它可以认为是 if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。

决策树学习通常包含 3 个步骤：特征选择、决策树的生成、决策树的剪枝。

1.特征选择

信息增益（Information Gain）表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的程度。

定义：特征 A 对训练数据集 D 的信息增益比 $g_{R}(D, A)$ 为其信息增益 $g(D, A)$ 与训练数据集 D 关于特征 A 的值的熵 $H_A(D)$ 之比，即：
$g_{R}(D, A) = \frac{g(D,A)}{H_A(D)}$

ID3 算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。

C4.5 算法与 ID3 算法相似，C4.5 算法对 ID3 算法做了改进，C4.5 在生成的过程中，使用信息增益比来选择特征。

决策树生成算法递归的产生决策树，直到不能继续下去为止。这样产生的决策树往往对训练数据的分类很准确，但是对未知的测试数据的分类却没有那么准确，即出现过拟合的现象。

在决策树的学习中，将已生成的树进行简化的过程称为剪枝。