@IT·互联网工作dibo

风控模型评价指标

2019-07-18  本文已影响16人  GQRstar

        风险建模中的申请评分卡(A卡)实质是一种分类模型,常见的模型是逻辑回归(Logistic Regression model,LR)模型。分类模型常见的评测指标有以下几种:

序号 中文 英文 简称
1 混淆矩阵 Confusion Matrix CM
2 受试者工作特征曲线 Receivr Operating Characteristic Curve ROC曲线
3 曲线下面积 Area Under Curve AUC指数
4 洛伦兹曲线 Kolmogorov-Smirnov KS曲线
5 基尼系数 Gini Coefficient GINI系数
6 增益图 Gain Chart Gain曲线
7 提升图 Lift Chart Lift曲线
8 标准误差 Root Mean Squared Error RMSE

除上述指标还有特征稳定性的指标PSI值。

1.混淆矩阵

        混淆矩阵是真实值与预测值的交叉对比结果,下图就是混淆矩阵:


混淆矩阵.png

混淆矩阵只包含4个指标:TP,FP,FN,TN。由这四个指标可以计算出Pression,Accuracy,Recall,Specificity,TPR,FPR等一系列次级指标。

2.ROC曲线

        在逻辑回归、随机森林、GBDT、XGBoost这些模型中,模型训练完成之后,每个样本都会获得对应的两个概率值,一个是样本为正样本的概率,一个是样本为负样本的概率。把每个样本为正样本的概率取出来,进行排序,然后选定一个阈值,将大于这个阈值的样本判定为正样本,小于阈值的样本判定为负样本,然后可以得到两个值,一个是真正率,一个是假正率。
        真正率即判定为正样本且实际为正样本的样本数/所有的正样本数,假正率为判定为正样本实际为负样本的样本数/所有的负样本数。每选定一个阈值,就能得到一对真正率和假正率,由于判定为正样本的概率值区间为[0,1],那么阈值必然在这个区间内选择,因此在此区间内不停地选择不同的阈值,重复这个过程,就能得到一系列的真正率和假正率,以这两个序列作为横纵坐标,即可得到ROC曲线了。而ROC曲线下方的面积,即为AUC值。

3.AUC指数

AUC指数越大表示模型的分类能力越强。
        对于AUC值,也许有一个更直观的理解,那就是,在按照正样本概率值对所有样本排序后,任意选取一对正负样本,正样本排在负样本之前的概率值,即为AUC值。也就是说,当所有的正样本在排序后都能排在负样本之前时,就证明所有的样本都被正确分类了,此时的AUC值也会为1。

4.KS曲线

        KS曲线其实数据来源和本质和ROC曲线是一致的,只是ROC曲线是把真正率当作纵轴和假正率当作横纵轴,而K-S曲线是把真正率和假正率都当作是纵轴,横轴则由选定的阈值来充当。
        KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
计算步骤:

  1. 按照分类模型返回的概率升序排列 ,也可以直接是数据,根据某一阈值判断为1或0即可
  2. 把0-1之间等分N份,等分点为阈值,计算TPR、FPR (可以将每一个都作为阈值)
  3. 对TPR、FPR描点画图即可 (以10%*k(k=1,2,3,…,9)为横坐标,分别以TPR和FPR的值为纵坐标,就可以画出两个曲线,这就是K-S曲线。)
    ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。
    KS值表示了模型将+和-区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.2即可认为模型有比较好的预测准确性。
    KS值一般是很难达到0.6的,在0.2~0.6之间都不错。
KS值 模型解释能力
<0.2 No
0.21~0.40
0.41~0.50
0.51~0.60
0.61~0.75 极高
>0.9 太高,可能有问题

5.GINI系数

6.Gani曲线

7.Lift曲线

8.PSI指数

        群体稳定性指标PSI(Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标。可以评估模型预测能力的稳定性,也可以评估特征(分bin后不同bin样本分布的稳定性)在不同数据集的分布稳定性。PSI计算示例如下图: PSI计算.png
PSI值 稳定性
<10% 高,无需更新模型(特征)
10%~25% 中,检查一下其他度量方式
>25% 极低,需要更新模型(特征)

PSI = sum((实际占比-预期占比)* ln(实际占比/预期占比))
(未完待续。。。)

上一篇 下一篇

猜你喜欢

热点阅读