开篇:风控评分卡知识总结

2019-09-27  本文已影响0人  噗嗤噗哩噗通

1 基本风控信息

image.png

1.1 评分卡的分类:

A卡(Application score card)申请评分卡

A卡一般可做贷款0-1年的信用分析,A卡中常用的有逻辑回归,AHP

A卡用途:

B卡(Behavior score card)行为评分卡

B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年。(多因素逻辑回归)

B卡用途:

C卡(Collection score card)催收评分卡

C卡则对数据要求更大,需加入催收后客户反应等属性数据。(多因素逻辑回归)
评分卡计算:在建立标准评分卡之前,我们需要选取几个评分卡参数:基础分值、 PDO(比率翻倍的分值)和好坏比。 这里, 我们取600分为基础分值,PDO为20 (每高20分好坏比翻一倍),好坏比取20。

评分卡计算过程

1.2 评分卡开发流程:

评分卡开发流程

2 数据获取与整合

2.1 变量类型

  1. 原始变量
  2. 衍生变量
  3. 分析变量(类似于模型分)

2.2 数据来源:


3 数据描述

3.1 单变量:

如果极值占比较高,需要分析是否要分多类

3.1 相关性指标

iv值判断标准

pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例

\begin{equation}\begin{split} woe^{(i)}&=ln(\frac { py^{(i)} } {pn^{(i)} } ) \end{split}\end{equation}

\begin{equation}\begin{split} iv&=sum(( { py^{(i)} } - {pn^{(i)} })*woe^{(i)}) \end{split}\end{equation}

等距分箱
卡方分箱
最优分箱:决策树分箱
这里应该是基于不同的指标会作出不同的分箱,基于ks的,或者给予gini系数,信息熵的。

3.2 样本抽样

3.3 数据预处理

好的特征需要具备哪些优势?
稳定性高,区分度高,差异性大,符合业务逻辑,具备可解释性。

缺失值补充

异常值处理

数据分布分析

3.4 模型样本预处理

3.5 模型筛选

逻辑回归

优点:简单、稳定、可解释、技术成熟、易于监测和部署
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高

决策树

优点:对数据质量要求不高,易解释
缺点:准确度不高

其他元模型

组合模型

优点:准确度高,稳定性强,泛化能力强,不易过拟合
缺点:不易解释,部署困难,计算量大

3.5 模型评价方式:

psi

psi计算过程

其他稳定性指标:评分迁移矩阵、kendall 秩相关系数

其他:

ks(10等分):
TP:真实为1且预测为1的数目
FN:真实为1且预测为0的数目
FP:真实为0的且预测为1的数目
TN:真实为0的且预测为0的数目
真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),
另外一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)

十等分之后的: ks=Max(TPR-FPR)

1、区分度:主要有KS和GINI指标,理解KS的定义及用法
2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
3、稳定性:主要有PSI指标,理解PSI的定义及用法

auc和ks的关系?
有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。

拿逻辑回归举例,模型训练完成之后每个样本都会得到一个类概率值(注意是类似的类),把样本按这个类概率值排序后分成10等份,每一份单独计算它的真正率和假正率,然后计算累计概率值,

AUC值就是ROC曲线下放的面积值,而ks值就是ks曲线中两条曲线之间的最大间隔距离

ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。
KS值表示了模型将+和-区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.2即可认为模型有比较好的预测准确性。

roc,auc,

纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率
横轴:FPR=负例分错的概率 = FP/(FP+TN)

lift
洛伦兹曲线

评分卡刻度:

image.png image.png

3.6 评分卡的监测与部署:

image.png

验收:测试、等级划分、额度设计、风险定价、ABtest的设计等等

3.7 拒绝演绎:

仅适用于申请评分卡
建立申请评分卡的时候,

4. 风控模型与模型评价指标

粗略的看:

策略体系:

规则类型:

5. 互金网络下风控系统体系:

6. 常见问题:

参考资料:
信用评分卡模型
信用风险与评分卡研究

上一篇 下一篇

猜你喜欢

热点阅读