工作

搭建金融信贷风控中的机器学习模型-(9)集成模型

2019-09-28  本文已影响0人  GQRstar

        在包括违约预测在内的诸多场景中,越来越多的建模人员应用集成模型取得了不错的成效。典型的集成方式包括bagging,boosting和stacking。

1.集成模型

把多种单一模型组合取来共同解决一个问题
必要性

2.Bagging

Bagging的代表是随机森林模型,这种集成方式的步骤是:

随机森林构建步骤
        在Bagging集成中,需要从原训练集中有放回地抽取数据形成新的训练集,在此基础上构造元模型。假设原训练集有M个样本,则每次需要从中有放回地抽取M次。由于每次抽样是随机的,因此每条数据被抽取到的概率为,每次没有被抽取到的概率为,M次都没有被抽取到的概率为,由于,没有被抽取到的数据组成的子集称为袋外数据(out of bag,OOB),可以用作验证集。此外,利用Bagging的方式集成模型,中间不同元模型的构建可以并行完成。

3.Boosting

        Boosting是另一种常见的集成方式,其基本思想是,根据当前得到的模型的错误率(或者其他与损失相关的量,例如损失函数)对样本进行调整,再构建下一个模型,最终将所有模型的结果进行加权。由此可见,与Bagging不同的是,Boosting中训练元模型是串行生成的。之前介绍的GBDT和XGBoost模型就是其中一类,此外根据代表性的Adaboost模型,其表达式为:
F_M(x;P)=\sum_{i=1}^n\beta_ih_i(x;\alpha_i),其中h_i(x;\alpha_i)为若干个元模型,\beta_i为元模型权重,\alpha_i为元模型的参数,P为所有参数集合。
基本思路

Adaboost基本思路
Adaboost训练步骤
权重求解1
权重求解2

4.Stacking

        image.png
image.png
上一篇 下一篇

猜你喜欢

热点阅读