GBDT

机器学习算法:GBDT之二

2018-12-30  本文已影响55人  哎吆喂轩

GDBT的概论

GBDT算法中,用初始化的X0,y0 训练弱分类器1(即基模型1)后,将y0(真实值) - y^(预测值)=e0(残差)作为y1去训练弱分类器2(即基模型2),依次类推,直到残差拟合到最小。

Adaboost算法中,通过调整权重W(w1,w2,...,wn)来训练弱分类器,直到损失函数达到最小。

Gradient Boosting Decision Tree

GBDT的决策树有两种回归树和分类树,具体的决策树可以是CART或者C4.5生成。

GBDT的损失函数

GBDT的正则化

和Adaboost一样,我们也需要对GBDT进行正则化,防止过拟合。GBDT的正则化主要有三种方式。

这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。如果取值为1,则全部样本都使用,等于没有使用子采样。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。推荐在[0.5, 0.8]之间。

使用了子采样的GBDT有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)。由于使用了子采样,程序可以通过采样分发到不同的任务去做boosting的迭代过程,最后形成新树,从而减少弱学习器难以并行学习的弱点。

GBDT的优缺点

GBDT的参数

上一篇 下一篇

猜你喜欢

热点阅读