bioinformaticsData science

变量筛选之WOE和IV

2021-12-11  本文已影响0人  井底蛙蛙呱呱呱

不生产知识,只做知识的搬运组装工~

WOE (Weight Of Evidence)

WOE是一种对类别特征进行编码的方式,若需要对连续值进行WOE编码,则先需要对其进行离散分箱。对于某个category特征其每个特征值的WOE计算如下:


其中,pyi 表示在此特征值下正样本 yi(label=1,在风控中一般将异常样本定义为正样本)占全体正样本 yT 的比例,而 pni 则表示此特征值下负样本ni占全体负样本 nT 的比例。

由上可见,WOEi 实际表示的是某个特征值下正样本比例负样本比例的差异。一般来说,某个特征值下正负样本差异越大,我们便越有理由认为其具有区分度。

对上面的公式做一个变换得到:


变换以后含义更明显,可以理解为当特征值下正负样本的比值与所有样本中正负样本比值的差异。这个差异是用这两个比值的比值,再取对数来进行表示,不仅考虑了局部(当前特征值下)正负样本的比例差异,还考虑了全局正负样本比例差异。差异越大,WOE越大,这个特征值对于正负样本的区分度就越大,反之亦反。此外,WOE是可以为负的,但其绝对值越大,对于分类贡献就越大。当分箱中正负样本的比例等于整体正负样本比例时,说明这个特征值没有预测能力,即WOE为0。

虽然WOE能说明某个特征值的预测能力,但是一般不会直接用其来表示特征预测能力进行特征筛选,而是使用IV值。

IV (Information Value)

IV(信息价值)也称信息量。我们在做特征选择时,一般会看五个方面:

IV即是用来衡量变量预测能力的,IV值越大,表示该变量的预测能力越强。类似的指标还有信息增益、基尼系数等。

对于某个类别特征中的特征值i,其IVi的计算方式如下:


可以看出来,相较于WOE,IV值多了个系数 (pyi - pni),而 pyipni 是当前特征值中样本量在全体样本中的占比,乘以这个系数以后可以理解为增加了特征的鲁棒性,防止WOE的局部过拟合(可以对比树模型中的叶节点最少样本数防止过拟合的方式,这里是同理的)。同时,此系数还保证了IV值的非负性。

根据变量在各分组上的IV值,得到整个变量的IV值为:



其中,n表示某个特征中特征值的数量。

如何根据IV值评估变量预测能力:



一般我们选择IV值大于0.02的哪些变量进入模型。如果IV值大于0.5,该变量就属于过预测变量,通常被选作分群变量,将样本拆分成多个群体,针对不同的群体分别开发模型。

对于WOE和IV更多角度的理解,可以参考:风控模型—WOE与IV指标的深入理解应用

关于WOE和IV的进一步思考

1、为什么用IV而不是WOE表示特征的预测能力?

原因有两个:1)IV能保证结果的非负性;2)IV中乘以系数后体现了当前特征值下样本数量占整体数量的比例,即当各特征值下样本分布不均匀时对其预测能力的影响。

假设一个营销响应模型中,有变量A,其取值只有两个:0和1。计算其WOE和IV如下:



为什么特征A的WOE值合计明明很高而IV值(预测能力)却比较低呢?原因就在于,A取1时,响应比例虽然很高,但这个分组的客户数太少了,占的比例太低了。虽然,如果一个客户在A这个变量上取1,那他有90%的响应可能性,但是一个客户变量A取1的可能性本身就非常的低。所以,对于样本整体来说,变量的预测能力并没有那么强。

其次我们可以看到,变量取1时,响应比达到90%,对应的WOE很高,但对应的IV却很低,原因就在于IV在WOE的前面乘以了一个系数,而这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对变量整体预测能力的贡献越低。相反,如果直接用WOE的绝对值加和,会得到一个很高的指标,这是不合理的。

2、WOE和IV的计算

对于类别型变量,可以直接进行计算,但是若某个类别中的数据量很少,则可以将尾部类别进行合并。对于连续型变量则需要先进行离散化:

此外,对于连续变量的离散方式,还可以通过决策树的分裂来进行计算,参考:基于sklearn决策树的最优分箱与IV值计算-Python实现

参考:

风控模型—WOE与IV指标的深入理解应用
机器学习-变量筛选之IV值和WOE
基于sklearn决策树的最优分箱与IV值计算-Python实现
https://contrib.scikit-learn.org/category_encoders/woe.html

上一篇 下一篇

猜你喜欢

热点阅读