gbdt原理理解和分类实例

2018-12-30 本文已影响6人 yesski

写在开头：

实在惭愧，博客上次还写了对xgboost的原理理解，结果后面经过某个事情发现自己

对gdbt的实际训练，或者说boosting的实际过程没有那么的理解，

这次重新回头去看了一遍，有了更多的理解，重新写一下自己的理解

这次引用的别人的内容都会注在博客的最后，因为看了以后确实加深了我的理解

其次是才明白一件事，慢就是快，越是浮躁的时候，越得打好基础

1.什么叫Gradient Boosting

这部分其实之前在学习的时候看的李航老师的《统计学习方法》中的8.4节，并认真推导了他书中回归的例子，是以mse作为损失函数的，但并不知道在分类中，原来其实也是以回归的形式来做的。

首先，先解释一下boosting（提升）。提升方法的核心就是“三个臭皮匠，赛过一个诸葛亮”的思路，从弱学习算法出发，反复学习，得到一系列的弱分类器（基分类器），然后组合这些弱分类器，构成一个强分类器。大多数的提升方法都是改变训练数据的概率分布（训练数据的权值分布）。这句话一开始不太容易理解，以分类问题来解释就是：调用弱学习算法得到一个弱分类器，这个弱分类器得到了各个训练数据属于某个类别的概率，(同原本样本的先验概率有一定差距，不然怎么是弱分类器)，即改变了训练数据的概率分布，再调用弱学习算法得到一个弱分类器，如此反复，得到一系列弱分类器

所以，对于提升方法来说，需要解决两个问题：一是每一轮学习中，如何改变训练数据的权值或者概率分布；二是如何将弱分类器组合成一个强分类器。

当然了解boosting的人会知道Adaboost，这篇博客中有关于adaboost详细的推导（https://www.cnblogs.com/linyuanzhou/p/5019166.html

多说一句adaboost，我实际手写推导学习过，里面让预测结果偏差大的树的权重在下一轮训练中变大的数学方法还是很巧妙了，模型会逐步自己关注那些被错误分类的点，adaptive也代表着adaboost名字里面前半部分ada，但是这样也会导致模型对离群样本点过于关注，有噪音时模型效果很差）

2.GB训练过程1

了解了所谓的boosting后，我们得到上面的两个问题，对于第一个问题，在GBDT中，其实就是通过拟合损失函数的负梯度值在当前模型的值，这里需要注意的，在以前的机器学习算法中，我们都是通过直接拟合真实值，而在GBDT里，我们拟合的目标不再是真实值，而是一个梯度值，当然这个梯度值和真实值有关系，后面部分会说明。

对于第二个问题，GBDT中的基分类器当然是决策树。但是决策树有很多比如C4.5、ID3、CART等等。那么用的是哪种树？在GBDT里，用的是CART（分类与回归树），同时Sklearn里面实现GBDT时用的基分类器也是CART。

简单介绍一下CART。一般的CART是这样的：用于分类任务时，树的分裂准则采用基尼指数，用于回归任务时，用MSE（均方误差）。

注意：当然在回归任务中，分裂准则也不再局限于用MSE，也可以用MAE，还可以用Friedman_mse（改进型的mse)。

上面提到，CART可以用于回归和分类，那么到底用回归还是分类呢？上面我们已经提到了，GBDT拟合的目标是一个梯度值，这个值当然是一个连续值或者说实值，所以在GBDT里，通通都是回归树。

有了基分类器后，如何将这些基分类器组合起来？boosting方法一般是使用加法模型。

即：