风控评估指标浅析与实现 - KS、WOE、IV

2019-12-14  本文已影响0人  Simple丶Plan

1. 前言

风控工作中,不管是特征工程、特征筛选、建模都常常涉及到的几个指标,简单总结下。

2. KS

KS 是用于衡量正负样本比例差程度大小的评估指标。简而言之,便是好人的程度与坏人的程度之差。

ks_i = \left |\frac{cumulative\:good_i}{total} - \frac{cumulative\:bad_i}{total}\right |\:,\:\:\:\:\:i=(1,2,...,10)

i 表示第 i 分段。

绿色的虚线的长短即代表着当前分段的 KS 大小。

理想状态下,KS 越高,越能反映特征或者模型的风险区分能力,完美的信用分分布是正态分布的。现实状态下,大于 0.9 就过于高了, 这样的模型没有代表性。模型 KS 过高也要考虑是否过拟合的问题。一般来说, KS 在 0.3 以上时才勉强可用于生产,风险区分效果一般。

同时,KS 的后期观测也相当重要,在后续的监控中, KS 若出现持续下降, 有可能是市场发生了变化,客群发生变化,或者模型本身不太稳定,所以训练模型时训练集与验证集的对比也相当重要,两者 KS 差距较大,说明模型过拟合,或泛化能力不强。

3. WOE

WOE 全拼 Weight of Evidence,即证据权重,用于风险评估、授信评分卡等。

woe_i = ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

i 表示第 i 分段。也可转换后得到,

woe_i = ln(\frac{bad_i}{good_i} / \frac{bad\: total}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

从上公式可知,WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大,差异越大,好用户的可能性越大。

同时 WOE 变换常应用于特征工程,当我们对某些特征变量进行等频或等距等分箱后发现,发现每级分段 WOE 不满足单调性时(大部分为离散型变量),进行 WOE 变换,即采用对应每分段的 WOE 值替换掉特征原始值,此时该特征的分布将会是单调的。

通过 WOE 变换,同时保持 WOE 曲线具备单调性,带来的好处在于特征值与 y 值具备正(负)相关性,例如我们定义坏用户为 1 时,特征值越大,预测为坏人的概率将越高。

4. IV

IV 全拼 information value, 即信息价值,是衡量特征对于模型预测能力的指标,常用于入模训练前的特征筛选的参考依据。

IV 可由 WOE 计算得到

iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*woe_i\:,\:\:\:\:\:i=(1,2,...,10)

iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

整个特征的 IV 值则为每段 IV 值之和,可得

iv=\sum_{i}^{n}iv_i\:,\:\:\:\:\:i=(1,2,...,10)

当特征的 IV 值越大,该特征的信息价值就越大,对于判断客户好坏的贡献越大,这样的特征越适合入模。

我们通常以 IV 来作为判断特征对于模型的预测能力的指标,因为 WOE 有正负值,而 IV 只会是正值。最重要的是,WOE 值没有体现出当前分段的个体数在总体数量中的比例,举个例子,若某个分段的 WOE 值很大,但是该分段的个体数占总体数量中很小的比例,这 WOE 便不具备整体的代表性,因为其对于整体的贡献太小,IV 值也会很小。因此,使用 IV 值作为判断预测能力的指标。

4. python 实现

常常需要计算这些指标,对于每次都要跑大批量的特征,感觉异常烦躁,提高效率还是有必要,把这些指标整合起来写了个库,调用出结果。后来更懒了,写了层图形界面套上去,鼠标点一点就完事,及其舒适。果真懒才是人类进步的发动机。
源码: https://github.com/lianxiangtao/KS_IV


如果文章对你有所帮助,请不要吝啬手中的赞哦。心情会美美哒。
WX: xianyu_splash,本公众号用于记录本人学习历程、基础技术,分享日常灵感、优质工具,欢迎关注!共同进步!

5. 参考资料

  1. 风控模型—WOE与IV指标的深入理解应用
  2. 【详解】银行信用评分卡中的WOE在干什么?
  3. 评分卡模型中的IV和WOE详解
上一篇 下一篇

猜你喜欢

热点阅读