集成学习原理概要 (随机森林, gbdt, XGBoost)

2022-08-24  本文已影响0人  Caucher

集成学习是一类机器学习算法,主要用于分类和回归任务,基本思想是结合多个弱模型变成一个强模型。
本文自网络资料参考整理而来,参考列表在文末。本文重点描述方法原理和基本过程,具体推导请参考文末链接。

1. 分类决策树

2. 回归树

剪枝

有关这两种树的剪枝,可以分别计算每一个中间节点的剪枝收益,注意此时损失函数不只有最小平方误差或者信息增益,还需要树的复杂度,即树的节点个数、高度等。我们可以给复杂度代价这一项前面加一个权重因子\alpha,当\alpha比较大的时候,分类/回归精度不再那么重要,子树的复杂度很重要,会更倾向于剪枝。
具体算法上,我们可以算每一个中间节点的临界\alpha值,依次选择最小的\alpha对应的中间节点剪枝。生成的一大批树里面可以利用K折交叉验证选一个最好的。
详细参考:https://zhuanlan.zhihu.com/p/418306627
https://cloud.tencent.com/developer/article/1813348

3. 随机森林

4. BDT提升决策树 (boosting decision tree)

实际上是多颗回归树,不过是以递增形式生成的,即boosting,是继承学习的另一种fashion。每一棵树的生成都依赖于前面生成的树,最后做回归的时候,需要把多棵树的回归结果相加/带权相加。
具体来说,BDT首先训练一颗回归树,然后将训练样本的目标值改为残差,再次训练残差。

5.GBDT梯度提升决策树(gradient boosting decision tree)

6. XGBoost

一个进阶版GBDT

参考资料:

  1. https://www.bilibili.com/video/BV1Ca4y1t7DS?p=8&spm_id_from=pageDriver&vd_source=b36eb3caf743a16b1961c9b1319fab0f
  2. https://www.bilibili.com/video/BV1nP4y177rw?p=5&spm_id_from=pageDriver&vd_source=b36eb3caf743a16b1961c9b1319fab0f
  3. https://zhuanlan.zhihu.com/p/418306627
  4. https://zhuanlan.zhihu.com/p/29765582
上一篇下一篇

猜你喜欢

热点阅读