14. 决策树剪枝
2019-11-09 本文已影响0人
十里江城
决策树太高容易过拟合,需要剪枝:
预剪枝:边构建边剪枝,提前停止
不导致最后每一个节点都是一个样本。比如min_sample<50时则提前停止,又如深度=3时则停止
后剪枝:决策树构建好后,开始裁剪
当作损失函数的C_alpha_{T} = C(T) + alpha * |T_leaf|
其中
- C(T)是之前的评价函数
- T_leaf:当前节点拥有的叶子节点个数;
- alpha手动指定:alpha大时T_leaf需要较小,alpha小时T_leaf可以大一些(叶子节点多一些)
后剪枝问题中,对当前节点不剪枝与剪枝的C_alpha_{T}不同损失函数分别为C1 + alpha * 3、C2 + alpha * 1,可见剪枝后损失函数更优
当然,C_alpha_{T}越小越好
无休止构建决策树会在训练集上结果达到100%,但在测试集上不适用