评分卡的开发过程
标准评分卡
评分卡的类型和目的
如今在银行、消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判。但是不是所有人都知道信用评分卡还分A,B,C卡三类。互联网金融中的信贷模型常用信用评分卡模型,信用评分卡主要分为三类:
- A卡,申请评分卡, 对信贷款申请进行筛选并判断其违约风险
- B卡,行为评分卡,对审批通过的贷款账户进行覆盖整个贷款周期的管理
- C卡,催收评分卡,对逾期帐户预测催收策略反应的概率,从而采取相应的催收措施
本文主要介绍前两种评分卡。
申请评分卡的评分结果将决定以下几个方面:
- 估计的信用状况(正常or违约,批准or拒绝)
- 为了获得审批通过需要抵押的物品
- 贷款金额(信用额度)
- 贷款定价(利率水平)
行为评分卡的评分结果将决定以下几个方面:
- 审查信用重建
- 制定清收策略(若违约或逾期)
- 审查贷款定价或贷款条件
两种评分卡的开发过程存在着两个主要的差别:
- 通常,行为评分卡要比申请评分卡更为准确,因为行为评分卡在对账户状态进行预测时基于更多的数据(交易状态)
- 拒绝演绎技术只在申请评分卡的开发过程中使用。
正常,违约和不确定
简单介绍M1,M2,M3:
M1时段:是M0时段的延续,即在未还款的第二个账单日到第二次账单的最后缴款日之间。
M2时段:是M1的延续,即在未还款的第三个账单日到第三次账单的最后缴款日之间。
M3时段:是M2的延续,即在未还款的第四个账单日到第四次账单的最后缴款日之间。
明确正常和违约的含义之后,用于评分卡模型开发的数据中必须包含一个表示账户观测值的变量,即状态变量或指标。通常,用1表示违约,0表示正常。不确定账户状态定义于介于违约和正常之间的另外一种状态变量,可作多分类,此种情况。
本文讨论二分类问题,即用1表示违约,0表示正常。
评分卡开发流程
典型的评分卡开发流程问题准备
在此阶段,需要做出下列决策和解决下列问题:
- 在特定业务重点,财务结果和具体信贷产品历史表现的基础上,确定违约和正常的定义;
- 确定计划的评分卡的范围、开发和实施窗口;
- 识别数据来源和范围,内部还是外部,并确保数据能够获取;
- 设计主要项目管理计划,对时间,资源和人员进行管理。
数据获取和整合
数据不限制内部,也可以来源于外部数据,需要整合成一个适合建模的数据。
基于客户开发的评分卡通常适用于客户级的评分。后面会专门些如何进行数据获取和整合。
EDA和数据描述
- 候选预测变量单变量统计特征的平均,及其取值在变量范围内的分布;
- 计算每个候选预测变量分类或分段条件下的违约率分布,也被称为要素分析;
- 通过列联表、关联表和相关性指标确定不同变量之间的检验关系。
数据准备
数据准备是整个评分卡开发过程中最重要,也是最耗时的工作。约占整个项目时间的80%以上。
数据准备的目的就是创建所谓的数据挖掘或建模视图,即包含开发评分卡模型所需要的所有要素的唯一数据集。需要大量的数据清洗及转换工作。
关注证据权重(WOE)!
变量选择
?? 变量选择or特征工程
模型开发
标准评分卡基于logistic回归模型。现在有各种评分卡模型了.......
模型验证
所有预测模型都需要满足四项基本要求:
- 必须达到可接受的准确水平
- 必须稳健,能够适用于更广范围的数据集
- 必须简单,或具有数学意义上的简洁
- 必须有意义,即在业务变量和预测值上是可解释的
评分卡的创建和刻度
在logistic回归模型中对自变量进行证据权重有两项好处:
- 可以将名义变量和分段的连续变量纳入logistic回归模型,从而,每个原始变量都是以唯一的值纳入模型,省去了虚拟变量,并使实际模型参数保持较小的取值。
- 可以将标准评分卡形式表示logistic回归模型,后续可作二分类问题推广。
评分卡实施
将评分卡转化成可实施代码,如sas,sql、python等;确定最终得分的临界值,以对应所需的业务行动,例如接受、拒绝或参考人工审核结果。
拒绝演绎
拒绝演绎并不是评分卡开发过程中的标准步骤;评分卡开发使用的是已经审批通过且经过一段时间运行的账户数据,已经表现出正常或违约的账户状态,因此,被拒绝申请的数据没有被纳入评分卡开发过程中;拒绝演绎是尝试去分析可能会违约并在评分卡开发前已经被拒绝的账户的一种方法。
第一章就到这儿了,后续接着码代码.......