决策树学习

2017-02-13  本文已影响0人  艾尔温

决策树学习的适用问题

通常决策树学习最适合具有以下特征的问题:

基本的决策树学习算法

ID3算法,通过自顶向下构造决策树来进行学习。构造过程是从“哪一个属性将在树的根节点被测试?”这个问题开始的。为了回答这个问题,使用统计测试来确定每一个实例属性单独分类训练样例的能力。分类能力最好的属性被选作为树的根节点的测试。然后为根节点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支之下。然后重复整个过程,用每个分支节点关联的训练样例来选取在该点呗测试的最佳 属性。这形成了对合格决策树的贪婪搜索,也就是算法从不回溯重新考虑以前的选择。

ID3算法的核心问题是选取在树的每个节点要测试的属性。我们希望选择的是最有助于分类实例的属性。那么衡量属性价值的一个好的定量标准是什么呢?这里将定义一个统计属性,称为“信息增益”,用来衡量给定的属性区分训练样例的能力。ID3算法在增长树的每一步使用这个信息增益标准从候选属性中选择属性。

用** “熵” **度量样例的均一性,它刻画了任意样例的纯度(purity),熵介于0~1之间。在信息论中,熵被用来衡量一个随机变量出现的期望值。

与其它的归纳学习算法一样,ID3算法可以被描述为从一个假设空间搜索一个拟合训练样例的假设。被ID3算法搜索的假设空间就是可能的决策树的集合。ID3算法以一种简单到复杂的爬山算法遍历这个假设空间,从空的树开始,然后逐步考虑更加复杂的假设,目的是搜索到一个正确分类训练数据的决策树。引导这种爬山搜索的评估函数是信息增益度

决策树学习的常见问题
决策树学习的实际问题包括确定决策树增长的深度;处理连续值的属性;选择一个适当的属性筛选度量标准;处理属性值不完整的训练数据;处理不同代价的属性;以及提高计算效率。

过度拟合:给定一个假设空间 H,一个假设h∈H,如果存在其他的假设h´∈H,使得在训练样例上h 的错误率比h´小,但在整个实例分布上h´的错误率比h 小,那么就说假设h 过度拟合(overfit)训练数据。

上一篇下一篇

猜你喜欢

热点阅读