搭建金融信贷风控中的机器学习模型-(8)梯度提升算法

2019-09-28 本文已影响0人 GQRstar

在分类任务中，除了逻辑回归、SVM、决策树等简单模型外，还有例如随机森林之类的集成模型，GBDT就是其中一类代表的梯度提升模型。

1.梯度提升(Gradient Boosting)的概念

在求解函数 $f(x)$ 最值问题中，变量的最优解是在参数空间内搜索，梯度下降法是基本的数值方法之一，以最小值为例说明基本步骤：
1.初始化 $w=w^0$
2.for i in range[0:N]:
- 求解梯度 $d_i=-\frac{\partial f}{\partial w}|w^i$
- 更新 $w^{i+1}=w^i+\lambda_id_i,\lambda_i为当前步长$
则最终解为 $w^*=w^0+\sum_{i=1}^N\lambda_id_i$
如果将变量扩展到函数空间，考虑给定数据集 ${x_i,y_i|i=1,2,3...,M}$ ，建立 $x$ 对 $y$ 的回归模型 $y=f(x)$ ，需要优化损失函数 $L(y,f(x))$ 。即求解损失函数的最优解 $f(x)$ ，即
$f^*(x)=argmin_fL(y,f(x))$ 。求解的步骤与梯度下降法一致，基本步骤仍为：
1.初始化: $f(x)=f^0(x)$
2.for i in range[0:N]:
- 求解梯度 $g_i(x)=-\frac{\partial L(y,f(x))}{\partial f(x)}|f^i(x)$
- 更新 $f^{i+1}(x)=f^i(x)+\lambda_ig_i(x),\lambda_i=argmin_{\lambda}L(y,f^i(x)+\lambda g_i(x))$
则最终解为 $f^*(x)=f^0(x)+\sum_{i=1}^N\lambda_i g_i(x)$
如果将上述介绍的模型定义为CART模型，即可得到Gradient Boosting Decision Tree(GBDT)。当然基模型也可以使用其他分类器或者回归器。
GBDT的特点是：

基于简单决策树的组合模型
沿着梯度下降的方向进行提升
只接受数值型的连续变变量
其优点是：准确度高，不易过拟合

2.GBDT 模型简介

2.1原理（以分类树为例）

结构
用 $F(x)=\sum_{k=1}^Kf_k(x)$ 若干个分类树结果加和的方式来逼近 $y$ , $y$ 是二分类标签， $K$ 是分类树的个数。
损失函数

第 $k$ 步累计函数的损失=累计k棵树的精度损失+累计k棵树的复杂度惩罚
待求变量：第 $k$ 棵树
目的：让累计的损失最小化
以负二项对数损失函数为例介绍损失函数：
$l(y,F)=log(1+e^{-2yF}),y={-1,1}$
$F=\frac{1}{2}log(\frac{P(y=1|x)}{P(y=-1|x)})$
关于相加性：
预测的类别不能相加
概率不能相加
$log-odds-ratio$ 对数几率是可以相加的
求解步骤：
1.初始化模型 $F^0(x)$
初始化模型一般为常数，与样本 $x$ 分布无关，例如：
$F^0(x)=-\frac{1}{2}log(\frac{P(y=1)}{P(y=-1)})$
2.计算损失函数的负梯度(最小化损失函数)：
$\hat y=-\frac{\partial l}{\partial F}|F=F^0(x)=\frac{2y}{1+e^{2yF^0(x)}}$
3.构建回归树 $f^1(x)=\hat y$ ,并计算回归树的每个叶子结点的取值：
$\gamma_{1,j}=argmin_{\gamma}l(y,F^0(x)+\gamma)=argmin_{\gamma}\sum_{x\in R_{i,j}}log(1+e^{(-2y(F^0(x)+\gamma))})$
其近似解为: $\gamma_{1,j}=\frac{\sum_{x \in R_{1,j}}\hat y}{\sum_{x\in R_{1,j}|\hat y|(2-|\hat y|)}}$
4.然后更新得到的模型为：
$F^1(x) = F^0(x)+\sum_{j=1}^J\eta*\gamma_{1,j}I(x\in R_{1,j}),\eta为步长$

5.迭代下去可以得到 $F^M(x)$
注意：

模型 $F^M(x)$ 不是分类树， $F^M(x)$ 的结果不是类别，需要尽心概率转化:
$P(R_{m,j}=1)=\frac{1}{1+e^{-F^M(x)}}$
模型 $f^m(x)$ 不是分类树，是损失函数对 $F^{m-1}(x)$ 的负梯度
选择的损失函数不同，得到的梯度也略有不同

3.GBDT的升级版:XGBoost

3.1原理

GBDT模型是将损失函数进行线性逼近，本质是对损失函数做一阶泰勒展开：
$Loss(y,F_k(x)+f(x))=Loss(y,F^k(x))+\frac{\partial Loss}{\partial F}|F^k(x)*f(x)+o(f(x))$
如果用多项式代替线性，将泰勒展开到二阶，就得到精度更高的下降法：
$Loss(y,F^k(x)+f(x))=Loss(y,F^k(x))+gf(x)+\frac{1}{2}hf^2(x)+o(f^2(x))+\Omega(f)\cong Loss(y,F^k(x))+gf(x)+\frac{1}{2}hf^2(x)+\Omega(f)$ ,
其中 $g=\frac{\partial Loss}{\partial F}|F^k(x),h=\frac{\partial^ 2Loss}{\partial F^2}$
由于 $Loss(y,F^k(x)$ 为常数，所以对损失函数的最小化，等价于对 $\hat l=gf(x)+\frac{1}{2}hf^2(x)+\Omega(f)$ 的最小化。
$gf(x)+\frac{1}{2}hf^2(x)$ 是模型在预测精度上的为残差， $\Omega(f)$ 代表模型的复杂度，在XGBoost中模型的复杂度一般表示为 $\Omega(f)=\gamma T+\frac{\gamma}{2}\sum w^2_j$ , $T$ 代表叶子结点个数， $w_j$ 为叶子结点的取值，避免过拟合。
综上，加入第 $t$ 棵树后的损失函数的表达式（忽略常数项）可以近似为：
$\hat l^t(x)=gf(x)+\frac{1}{2}hf^2(x)+\Omega(f)=\sum_{i=1}^n[g_if_i(x)+\frac{1}{2}h_if_i^2(x)]+\gamma T+\frac{\gamma}{2}\sum_{j=1}^Tw^2_j=\sum_{j=1}^T[(\sum_{x_i \in I_j}g_i)w_j+\frac{1}{2}(\sum_{x_i \in I_j}h_i)w^2_j]+\gamma T$
为了让 $\hat l_t$ 最小化， $w$ 的取值是 $w^*=\frac{\sum_{x_i \in I_j}g_i}{\sum_{x_i \in I_j}h_i+\lambda}$
此时, $\hat l_t=-\frac{1}{2}\sum_{j=1}^T\frac{(\sum_{x_i \in I_j}g_i)^2}{\sum_{x_i \in I_j}h_i+\lambda T}$