秋招-算法

决策树剪枝

2018-10-17  本文已影响2人  0过把火0

为何要剪枝

决策树递归地构建树,直到不能继续分裂下去为止,这样的树对于训练集可能拟合的较好,但对于训练集可能产生过拟合现象,原因是过多的考虑对训练集的划分精确度,从而构建出了复杂的决策树,缓解过拟合的方法是通过剪枝

剪枝的思想

剪枝是通过极小化决策树整体的损失函数或代价函数来实现的

剪枝的过程即在构建新的模型,因此,可以将剪枝看作是模型选择的一种方法。

预剪枝

通过提前停止树的构造来对决策树进行剪枝
一旦停止该节点下树的继续构造,该节点就成了叶节点
该叶节点持有其数据集中样本最多的类或者其概率分布。

后剪枝

先构建完整的决策树,允许决策树过度拟合训练数据。
然后对那些置信度不够的节点的子树用叶节点来替代
该叶节点持有其子树的数据集中样本最多的类或者其概率分布。

后剪枝CCP

目前在CART、gbdt等集成树模型中的剪枝方法是后剪枝,重点关注CCP剪枝的流程。



\alpha计算时,之所以选择min(a, g(t))是因为a=g(t),同时g(t)又表达每一个叶节点能带来的误差减小量,那么每次迭代选择误差减少量最少的那一个进行剪枝,因为误差减少量很少,则代表决策树此时没必要花力气向下生长。

转载注明:https://www.jianshu.com/p/ff73374ebe6a

上一篇下一篇

猜你喜欢

热点阅读