机器学习与数据挖掘白话评分卡机器学习

白话评分卡 传统模型目标设定

2019-08-22  本文已影响0人  _KevinZhang_

“深扒术语不装逼,实战真知变牛逼。”

传统模型的建立方式,其实背后是一个讲得很多的道理:就是用过去的经验预测未来。

中国有个成语叫“以史为鉴”。也就是说评分卡的最大的假设是历史会重演,通过总结历史的经验,可以对未来产生效果。

总结的历史够不够长,就会有所谓的周期这个概念。

简单的说,如果经济处于下行,那么“历史经验”,有可能会发生偏差。如果经济处于上行,那么这种偏差大概率是往好的方向转。

本文并不讨论周期的情况。因为有评分卡,有计量模型,总比没有好。即便在应对经济周期的上行和下行,也是有对应的方式来处理的,后续通过其他的篇章来说明。

既然要建立模型:任何事情都需要有一个目标。模型的目标是怎么确立下来的呢?模型的方法论,操作过程都是比较标准化的,往往影响模型的最终效果的是目标的确立以及数据的质量。

数据的质量,放在其他的篇章讨论,这篇只讨论目标的确定。

为什么要这样呢?因为评分模型,只有把极端的两种客户放在同一个数据集里边,通过统计学方法的计量之后,才能更好地找到他们的差异。其实也比较好理解,因为好用户的特征和坏用户的特征,看同样的变量信息,一定是有差异的。

对于不好不坏的客户,在模型建立的时候并没有放进去,但是出来的评分依然会对他们有效。

但是银行的客户、消费金融公司的客户、及小贷的客户,他们的坏客户定义很可能不完全是一样的。

也就是说银行客户的质量可能是最好,消费金融的公司可能差一点,小贷公司的客户可能是这里边其中里边最次的。

其实不管是哪种类型的客户,都有一个相对通用方法来定义什么叫做坏客户。

这种方法我们把它叫做滚动率。

什么叫滚动率呢?就是说客户从某一期不还,掉到下一期的概率有多少?

一般的期是指一个自然月,对应到天数一般是30天一期。逾期60天的客户一定是从逾期30天的用户里掉进来的,逾期90天的用户一定是逾期60天的用户里掉进来的。
60 - 90天人数滚动率 = 本期逾期到90天的客户数量 / 上期逾期到60天的客户数量


如果说某一期掉到下一期的概率已经超过了80%,那基本上可以这个逾期阶段定义为坏客户表现。

比方说银行的用户,逾期到90天,90天再往后,不还钱的概率超过了80%,那么90天逾期,可以作为银行用户的坏客户表现的定量指标。

消费金融公司,有可能定义成60天;小贷公司有可能定义成30天。因为对应的逾期天数,不还钱的概率也是超过80%的。

当我们找到这个坏客户的表现定义之后,就可以开始看Vintage.

Vintage的意思有很多,对应看数据指标的最早的相关的是葡萄酒行业,后来运用到其他行业。

它的横轴代表的是时间,时间代表着跟年龄,或者叫账龄相关。纵轴其实是表现指标,风险的表现指标,也就是刚才讲的逾期天数指标。

风险表现的账龄一般用月份来表达,也就是说,你的用户在第1个月,第2个月,第3个月...对应的风险表现的指标分别去到了多少?

这么说也许有点抽象,我们再来看看另外一个Vintage.


这个Vintage就表明小朋友,1岁、2岁、3岁...的时候,他对应的身高体重去到了多少?

小朋友长到一定的时候,16~18岁的时候,基本上就定型了,尤其是身高,基本上就不会再长了。也就是说18岁之后,他的身高基本上就是不会有增加,也不会有减少。再换句话来说,这个小朋友已经长大成人了,他已经成熟了。

对于传统的Vintage风险表现来说,也是类似的道理,一群用户,需要多长的时间才能看到风险不再增加。根据产品的不同,也许是6个月,9个月,或者12个月。当风险不再增加,转向平稳期的那个拐点,也就是账户风险的表现稳定下来的这个时间,叫做表现期。

我们知道,风险都是后置的,需要有一定的时间去观察,那么这个时间到底是多少?时间窗口到底应该怎么设置?通过观察Vintage我们就知道了。

知道了这个时间有什么好处呢?就是和我们建模时候采集什么时间的数据有关系。

比方说我们观察到Vintage,风险水平平稳拐点是9个月,那么肯定要拿9个月之前这批用户,9个月之后的现在,风险表现才能稳定下来。

也就是说,建模的样本要从现在起,往前数至少9个月,9个月以及之前的才是稳定成熟表现期的样本。


那么最标准的做法比方说,每批都是9个月,9个月之前的,观察9个月的时间,再往前的也是观察9个月的时间,我们把这种抽样观察的方法叫做滚动窗。

那么也就是说,所有的样本都有9个月的表现期,不多也不少。

当然,在实际的操作中,尤其是业务刚开展的时候,表现期也许等不了那么长的时间,这个时候可以采用叫做固定窗的方式。

那么看到上面一张图就知道,跟滚动窗最大的不一样是每个月他的表现期的时间长度是不一样的,因为越早之前截止到目前的表现期是最长的,越往后的截止到目前的表现期是越来越短的。

这么做的好处是什么呢?就是在业务初期业务量比较少的时候,也能通过这种方式,可以建出来评分卡,但是由于每一组用户的表现期的长度都不一样,所以呢,跟滚动窗的方式是有区别的。

这个区别就是说,坏的肯定是坏的,但是表现时间窗口挺短的,用户里面可能还有坏的样本没有出现(因为没有完全稳定下来)。当然这是没有办法的做法,等到业务再跑一段时间成熟的时候,逐步把固定窗转向滚动窗。

好了,我们上面说了坏客户的定义方式,以及表现时间窗口的确定,以及固定窗和滚动窗的区别。

接下来我们就要说好客户了,好客户到底是什么定义呢?我们刚才讲了,好客户肯定不能是,不是坏客户的就是好客户,因为这样做等于把所有的数据都放进来了,这样的话呢,好和坏的界限会非常的接近,模型是没有办法去做一个比较好的区分的。

所以我们也要对好客户进行定义。参考坏客户的定义:坏客户是指大概率没有办法收回来钱的用户,那么好客户当然是相反的,基本上都是按时还钱的用户。

是不是好客户一定是从来都没有逾期过的用户呢,也不一定是。比方说,如果信用卡用户选的好客户,都是从来不会欠钱的,从风险上来说一定是好的客户。但是信用卡用户每个人都按时还钱,其实银行是赚不了钱的。所以会有些做法,容忍一定程度的逾期,偶尔逾期的用户,也会把它放到好的用户的定义里边。这个取决于银行不同的银行对于风险容忍度的偏好。

我们来总结一下吧。

一句话总结:如果坏用户是逾期90天以上,稳定的表现需要9个月的时间,那么数据的准备就是要把9个月之前的申请数据拿出来。模型的效果就是预测这些用户,未来9个月的会变坏(逾期90天以上)的可能性。

本期内容就这些。谢谢啦

上一篇下一篇

猜你喜欢

热点阅读