白话评分卡传统模型目标设定

2019-08-22 本文已影响0人 _KevinZhang_

“深扒术语不装逼，实战真知变牛逼。”

传统模型的建立方式，其实背后是一个讲得很多的道理：就是用过去的经验预测未来。

中国有个成语叫“以史为鉴”。也就是说评分卡的最大的假设是历史会重演，通过总结历史的经验，可以对未来产生效果。

总结的历史够不够长，就会有所谓的周期这个概念。

简单的说，如果经济处于下行，那么“历史经验”，有可能会发生偏差。如果经济处于上行，那么这种偏差大概率是往好的方向转。

本文并不讨论周期的情况。因为有评分卡，有计量模型，总比没有好。即便在应对经济周期的上行和下行，也是有对应的方式来处理的，后续通过其他的篇章来说明。

既然要建立模型：任何事情都需要有一个目标。模型的目标是怎么确立下来的呢？模型的方法论，操作过程都是比较标准化的，往往影响模型的最终效果的是目标的确立以及数据的质量。

数据的质量，放在其他的篇章讨论，这篇只讨论目标的确定。

传统评分模型是如何设定目标的呢？
简单的说就是要定义好客户，坏客户。
是的，你没有看错：坏客户要定义，好客户也要定义。
并不是说非好即坏或者非坏即好。

为什么要这样呢？因为评分模型，只有把极端的两种客户放在同一个数据集里边，通过统计学方法的计量之后，才能更好地找到他们的差异。其实也比较好理解，因为好用户的特征和坏用户的特征，看同样的变量信息，一定是有差异的。

对于不好不坏的客户，在模型建立的时候并没有放进去，但是出来的评分依然会对他们有效。

一般是怎么定义坏客户呢？
简单的说，就是坏到没有办法回收回，贷款，那么这种一般就定义成坏客户。

但是银行的客户、消费金融公司的客户、及小贷的客户，他们的坏客户定义很可能不完全是一样的。

也就是说银行客户的质量可能是最好，消费金融的公司可能差一点，小贷公司的客户可能是这里边其中里边最次的。

其实不管是哪种类型的客户，都有一个相对通用方法来定义什么叫做坏客户。

这种方法我们把它叫做滚动率。

什么叫滚动率呢？就是说客户从某一期不还，掉到下一期的概率有多少？

一般的期是指一个自然月，对应到天数一般是30天一期。逾期60天的客户一定是从逾期30天的用户里掉进来的，逾期90天的用户一定是逾期60天的用户里掉进来的。
60 - 90天人数滚动率 = 本期逾期到90天的客户数量 / 上期逾期到60天的客户数量

如果说某一期掉到下一期的概率已经超过了80%，那基本上可以这个逾期阶段定义为坏客户表现。

比方说银行的用户，逾期到90天，90天再往后，不还钱的概率超过了80%，那么90天逾期，可以作为银行用户的坏客户表现的定量指标。

消费金融公司，有可能定义成60天；小贷公司有可能定义成30天。因为对应的逾期天数，不还钱的概率也是超过80%的。

当我们找到这个坏客户的表现定义之后，就可以开始看Vintage.

Vintage是个什么鬼呢？
大概长下面这个样子：

Vintage的意思有很多，对应看数据指标的最早的相关的是葡萄酒行业，后来运用到其他行业。

它的横轴代表的是时间，时间代表着跟年龄，或者叫账龄相关。纵轴其实是表现指标，风险的表现指标，也就是刚才讲的逾期天数指标。

风险表现的账龄一般用月份来表达，也就是说，你的用户在第1个月，第2个月，第3个月...对应的风险表现的指标分别去到了多少？

这么说也许有点抽象，我们再来看看另外一个Vintage.

这个Vintage就表明小朋友，1岁、2岁、3岁...的时候，他对应的身高体重去到了多少？

小朋友长到一定的时候，16~18岁的时候，基本上就定型了，尤其是身高，基本上就不会再长了。也就是说18岁之后，他的身高基本上就是不会有增加，也不会有减少。再换句话来说，这个小朋友已经长大成人了，他已经成熟了。

对于传统的Vintage风险表现来说，也是类似的道理，一群用户，需要多长的时间才能看到风险不再增加。根据产品的不同，也许是6个月，9个月，或者12个月。当风险不再增加，转向平稳期的那个拐点，也就是账户风险的表现稳定下来的这个时间，叫做表现期。

我们知道，风险都是后置的，需要有一定的时间去观察，那么这个时间到底是多少？时间窗口到底应该怎么设置？通过观察Vintage我们就知道了。

知道了这个时间有什么好处呢？就是和我们建模时候采集什么时间的数据有关系。

比方说我们观察到Vintage，风险水平平稳拐点是9个月，那么肯定要拿9个月之前这批用户，9个月之后的现在，风险表现才能稳定下来。

也就是说，建模的样本要从现在起，往前数至少9个月，9个月以及之前的才是稳定成熟表现期的样本。

那么最标准的做法比方说，每批都是9个月，9个月之前的，观察9个月的时间，再往前的也是观察9个月的时间，我们把这种抽样观察的方法叫做滚动窗。

那么也就是说，所有的样本都有9个月的表现期，不多也不少。

当然，在实际的操作中，尤其是业务刚开展的时候，表现期也许等不了那么长的时间，这个时候可以采用叫做固定窗的方式。

那么看到上面一张图就知道，跟滚动窗最大的不一样是每个月他的表现期的时间长度是不一样的，因为越早之前截止到目前的表现期是最长的，越往后的截止到目前的表现期是越来越短的。

这么做的好处是什么呢？就是在业务初期业务量比较少的时候，也能通过这种方式，可以建出来评分卡，但是由于每一组用户的表现期的长度都不一样，所以呢，跟滚动窗的方式是有区别的。

这个区别就是说，坏的肯定是坏的，但是表现时间窗口挺短的，用户里面可能还有坏的样本没有出现（因为没有完全稳定下来）。当然这是没有办法的做法，等到业务再跑一段时间成熟的时候，逐步把固定窗转向滚动窗。

好了，我们上面说了坏客户的定义方式，以及表现时间窗口的确定，以及固定窗和滚动窗的区别。

接下来我们就要说好客户了，好客户到底是什么定义呢？我们刚才讲了，好客户肯定不能是，不是坏客户的就是好客户，因为这样做等于把所有的数据都放进来了，这样的话呢，好和坏的界限会非常的接近，模型是没有办法去做一个比较好的区分的。

所以我们也要对好客户进行定义。参考坏客户的定义：坏客户是指大概率没有办法收回来钱的用户，那么好客户当然是相反的，基本上都是按时还钱的用户。

是不是好客户一定是从来都没有逾期过的用户呢，也不一定是。比方说，如果信用卡用户选的好客户，都是从来不会欠钱的，从风险上来说一定是好的客户。但是信用卡用户每个人都按时还钱，其实银行是赚不了钱的。所以会有些做法，容忍一定程度的逾期，偶尔逾期的用户，也会把它放到好的用户的定义里边。这个取决于银行不同的银行对于风险容忍度的偏好。

我们来总结一下吧。

好客户坏客户都需要有定义，不能是说非坏极好或者非好极坏。
坏客户是指基本上没有可能回收贷款的客户。
好客户一般是指不会逾期的客户，但是银行的风险偏好不一样，也许会允许个别偶尔预期的客户，定义成好客户。
通过滚动率，可以知道坏客户的定义。
需要多长时间才能把一个群体的坏客户看清楚，可以通过Vintage的方式。

一句话总结：如果坏用户是逾期90天以上，稳定的表现需要9个月的时间，那么数据的准备就是要把9个月之前的申请数据拿出来。模型的效果就是预测这些用户，未来9个月的会变坏（逾期90天以上）的可能性。

本期内容就这些。谢谢啦

白话评分卡传统模型目标设定

猜你喜欢

热点阅读

白话评分卡 传统模型目标设定

猜你喜欢

热点阅读

白话评分卡传统模型目标设定