风控评估指标浅析与实现 - KS、WOE、IV

2019-12-14 本文已影响0人 Simple丶Plan

1. 前言

风控工作中，不管是特征工程、特征筛选、建模都常常涉及到的几个指标，简单总结下。

2. KS

KS 是用于衡量正负样本比例差程度大小的评估指标。简而言之，便是好人的程度与坏人的程度之差。

$ks_i = \left |\frac{cumulative\:good_i}{total} - \frac{cumulative\:bad_i}{total}\right |\:,\:\:\:\:\:i=(1,2,...,10)$

$i$ 表示第 $i$ 分段。

绿色的虚线的长短即代表着当前分段的 KS 大小。

理想状态下，KS 越高，越能反映特征或者模型的风险区分能力，完美的信用分分布是正态分布的。现实状态下，大于 0.9 就过于高了，这样的模型没有代表性。模型 KS 过高也要考虑是否过拟合的问题。一般来说， KS 在 0.3 以上时才勉强可用于生产，风险区分效果一般。

同时，KS 的后期观测也相当重要，在后续的监控中， KS 若出现持续下降，有可能是市场发生了变化，客群发生变化，或者模型本身不太稳定，所以训练模型时训练集与验证集的对比也相当重要，两者 KS 差距较大，说明模型过拟合，或泛化能力不强。

3. WOE

WOE 全拼 Weight of Evidence，即证据权重，用于风险评估、授信评分卡等。

$woe_i = ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)$

$i$ 表示第 $i$ 分段。也可转换后得到，

$woe_i = ln(\frac{bad_i}{good_i} / \frac{bad\: total}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)$

从上公式可知，WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大，差异越大，好用户的可能性越大。

同时 WOE 变换常应用于特征工程，当我们对某些特征变量进行等频或等距等分箱后发现，发现每级分段 WOE 不满足单调性时（大部分为离散型变量），进行 WOE 变换，即采用对应每分段的 WOE 值替换掉特征原始值，此时该特征的分布将会是单调的。

通过 WOE 变换，同时保持 WOE 曲线具备单调性，带来的好处在于特征值与 y 值具备正（负）相关性，例如我们定义坏用户为 1 时，特征值越大，预测为坏人的概率将越高。

4. IV

IV 全拼 information value，即信息价值，是衡量特征对于模型预测能力的指标，常用于入模训练前的特征筛选的参考依据。

IV 可由 WOE 计算得到

$iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*woe_i\:,\:\:\:\:\:i=(1,2,...,10)$

$iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)$

整个特征的 IV 值则为每段 IV 值之和，可得

$iv=\sum_{i}^{n}iv_i\:,\:\:\:\:\:i=(1,2,...,10)$

当特征的 IV 值越大，该特征的信息价值就越大，对于判断客户好坏的贡献越大，这样的特征越适合入模。

我们通常以 IV 来作为判断特征对于模型的预测能力的指标，因为 WOE 有正负值，而 IV 只会是正值。最重要的是，WOE 值没有体现出当前分段的个体数在总体数量中的比例，举个例子，若某个分段的 WOE 值很大，但是该分段的个体数占总体数量中很小的比例，这 WOE 便不具备整体的代表性，因为其对于整体的贡献太小，IV 值也会很小。因此，使用 IV 值作为判断预测能力的指标。

4. python 实现

常常需要计算这些指标，对于每次都要跑大批量的特征，感觉异常烦躁，提高效率还是有必要，把这些指标整合起来写了个库，调用出结果。后来更懒了，写了层图形界面套上去，鼠标点一点就完事，及其舒适。果真懒才是人类进步的发动机。
源码: https://github.com/lianxiangtao/KS_IV

如果文章对你有所帮助，请不要吝啬手中的赞哦。心情会美美哒。
WX: xianyu_splash，本公众号用于记录本人学习历程、基础技术，分享日常灵感、优质工具，欢迎关注！共同进步！

风控评估指标浅析与实现 - KS、WOE、IV

1. 前言

2. KS

3. WOE

4. IV

4. python 实现

5. 参考资料

猜你喜欢

热点阅读