工作@IT·互联网

搭建金融信贷风控中的机器学习模型-(4)特征分箱与编码

2019-09-28  本文已影响0人  GQRstar

        风控建模常用逻辑回归模型,模型的特征必须是数值型特征,因此需要对类别型特征进行编码;此外,为了获得模型的稳定性,建模时需要对数值型特征进行分箱处理。最终,对进入模型的特征还要做单变量与多变量分析。

1.分箱简述

分箱的定义:1)对于数值型变量,将取值范围分为几个有限的分段,例如将收入分为<5k,510k,1020k,>20k等;2)对于类别型变量,如果取值很多,将 其合并为较少的几个分段。
分箱原因:1)评分结果需要稳定性,当样本数值型变量发生较小波动,评分结果不应发生改变;2)对于类别型变量,当取值很多时,如果不分箱会发生变量膨胀,例如,对31个省份编码,独热编码会有31个变量,dummy编码也会有30个变量。
分箱要求:1)取值较少的类别型变量不需要分箱;2)分箱结果需要有序性;3)分箱的平衡性;占比最小的箱数据不低于5%;4)分箱的单调性:在要求较严格的情况下,每箱的坏样本率与箱呈单调关系;当非单调时,需要与前箱或后箱合并,选择前或后有两种方案:一是选择合并后卡方值小的方案;二是选择合并后更加均匀的方案,均匀程度的衡量方式为:balance=\sum_i(p_i)^2,其中p_i为每箱样本占比,值越小越均匀5)分箱的个数,通常分箱后,箱的个数不能太多,一般5~7个;5)特殊值作为一箱,但不参与单调性比较,若特殊值的分箱样本占比低于5%,则与第一箱或最后一箱合并。
分箱的优缺点优点:1)比较稳定,原始变量在一定范围内波动,不会影响结果;2)可以处理缺失值,将缺失值作为特殊取值;3)异常值处理,可以与其他取值合并为一箱;4)无需归一化,数值型变量变为类别型,没有尺度的差异。缺点:1)有一定信息的丢失;2)需要编码,分箱后是类别型,需要进行数值编码。

2.分箱方法

分箱的初衷将相似度高的样本分为一组。无监督分箱考虑的是特征分布相似度;有监督分箱考虑的是特征业务含义相似度。

3.WOE编码

        编码是一种数值代替非数值的操作,目的是为了让模型对其进行数学运算。
i箱WOE值的计算公式:WOE_i=ln(\frac{G_i/G}{B_i/B})=ln(\frac{G_i}{B_i})-ln(\frac{G}{B})=ln(\frac{G_i}{G})-ln(\frac{B_i}{B})其中。G_i表示第i箱好样本数,G是全部好样本数。
优缺点:优点:1)提高模型性能,具有业务意义,比如大于0时,表示该箱的好坏比大于整体样本好坏比;2)统一变量的尺度,一般介于-4~4之间;3)分层抽样后WOE不变。缺点:1)对于多类别变量无效。

4.特征信息值IV

        IV可以衡量变量的重要性,进而筛选重要的特征。
IV计算公式:IV=\sum_i(\frac{G_i}{G}-\frac{B_i}{B})*WOE_i
IV值是非负的;woe反映的是每箱中好坏比相对全体样本好坏比的超出,而IV反映的是这种超出的显著性。需要注意:1)IV越大,特征越重要,但不宜过大,否则有过拟合的风险;2)IV计算同样要求每箱要有好坏样本;3)不仅与特征重要度有关,同时与分箱方式有关,分箱越细,IV越大。

5.单变量分析(Single Factor Analysis)

1.特征重要性
IV>=0.2,有较高重要性
IV介于0.1~0.2,有较弱重要性
IV<0.1,几乎无重要性
2.稳定性
通常使用PSI指标
3.覆盖率
筛除掉覆盖率较低的样本

6.多变量分析(Multi Factor Analysis)

完成单变量分析后,需要对变量的整体性做把控,进一步缩减变量规模,形成全局更优的变量体系。

(如有不同见解,望不吝指教!!)

上一篇下一篇

猜你喜欢

热点阅读