三方数据测试小结
现东家财大气粗,三方数据测试有限,差不多的就都接了,评估的不是很充分,在此结合他人文章和个人经验做个总结,如有不足之处麻烦指出,十分感谢。
首先想讲的是,为什么要接三方数据?目的在于解决信息不对称性,而解决信息不对称性的目的在于信用评估(客户准入)、风险定价。再大而化之一点去理解,要求客户提供各种数据授权,和要求客户房产抵押也没什么本质区别,就是增信。
当然,信用风险之外的另一大风险就是欺诈风险,数据包装的很好去骗贷,另开文章总结。
一、外部数据类型
基本可划分为如下四类:模型分、风险名单、特征变量(标签、画像)、eKYC事实验证类(含原始数据类)。
评分类一般用作策略和模型,主要考量“缺失率”,“稳定性”,“有效性”,如果评分的排序性好且IV比较高,则考虑入模,如果评分有明显的尾部极端优势,那适合做策略,用来拦截掉极端的坏用户。
对于贷中风控,征信数据、短信数据、支付数据(贷前拿来核个额啥的也是好的)等都很不错,值得接入。
二、分析评估流程
最需要先去评估的,不是选取样本、分析查得率之类的,而是去了解对方底层的数据源是什么,这在很大程度上决定了三方数据的稳定性、可靠性以及数据质量,最简单来说,直接与数据公司接好过代理商。
基于此,还要了解数据源更新的频率,五年一更新,黄花菜都凉了!
稳定性很好理解,自己的数据不会有因为各种原因时有时无。可靠性,举个例子,客户授权提供的银行流水数据,和通过其他中间渠道加工或者银联这种中间结算渠道(只有部分的客户交易数据,特别是现在没啥人刷卡,还蹦出个网联之类的),不可同日而语。再或者,短信类的数据供应商,底层数据都是短信,提取的都是放款、逾期、催收(次数/金额)等特征,依赖于该公司的文本处理能力(水平差异极大,相信我)。
第二重要的,就是测试样本的选择,取决于实际的业务应用场景(建模目标,对客群有足够的代表性,没有特殊时间段的客户,如监管调整、疫情等)。
查用的测试指标:覆盖率(查得率,提供的样本在第三方那能命中多少用户,覆盖率有时指特征的缺失概率)、命中率(坏样本的命中率,尤其黑名单类关注)、误杀率(对好样本的误杀率)、贷后指标区分度(IV)、稳定性(计算时间序列上的PSI)、收益损失比、与现有数据的共线性(一般用相关系数衡量,评估接入对模型的帮助)。
收益损失比,我很少关注,这是一个比较偏业务的指标,但其实如果做策略的话,似乎也大体想得到。我们通过指标分析,发现命中率、误杀率、fpd30、M1+%、M3+%都有很明显的区分度,怎么让老板拍板呢?可以去看对好坏客户命中量的比值。(应该是要划个阈值去看的,下文来自参考资料引用,感觉不是例子举得不是很恰当,主要是最后得出12.5保持盈亏后,就应该跳出平均收益、亏损,去看三方数据可以得到怎样的好坏比,那么显然是越大于12.5越好)
我们大概知道,一个客户给我们带来的损失是多少,一个客户给我们带来的利润是多少,再抛去运营成本,人力成本,一个客户的净利润大概是多少。所以我们就可以算这个损失收益比了,这个比值当然是下限越低越好了,但是我们需要考虑这个损失收益比的上限,也就是这个值不能超过多少,我们能接受,在这个值之下,越低越好。比如,我们一个好客户的平均收益是200元,一个坏客户的平均损失是2500元,2个值都需保守估计,我们相当于一个坏客户导致的损失,我们需要12.5个好客户才能挣回来这笔损失。我们的损失收益比为2500/200,也就是12.5,那我们在评估外部数据源时,计算好坏客户的损失收益比时,就不能大于这个值,且这个值越低越好。
求是汪大佬总结的很好,比我一大堆文字描述的好多了,大家可直接参考如下:
三、标准接入流程
尽调→评估→对接→测试→评审→商谈→接入。
比较偏业务了,风险侧就有一点小建议,根据数据的收费方式涉及风控流程。如为查得收费,建议放在风控流程的后面,减少费用,如为包年收费,要全量查询积累数据,避免出现由于其他规则拒掉的客户就不查了。
比较严谨的公司,除线下测试外,还会进行线上的旁路测试或AB测试,去观察数据接入后,每天的数据分布、对通过率的影响等,评估线上与线下测试结果是否一致。
四、需注意的事项
建议做好备用数据源的准备,对现有数据源进行补充。
测试时,要关注回溯时点的有效性,特别是距今不同时间间隔的变量表现差异(有效性高可能是未来信息引入导致的),评估厂商是否真的具备回溯能力。
也应当加入随机样本测试,关注变量在随机样本的分布和表现是否与测试样本一致。
接入后,最起码的是监控下查得率、基本的数据分布,以防由于接口原因导致评分失效,检查分布是工作中遇到过,某数据方的某个多头模型分从0-10变成了0-100,又不知会客户,不留心的话,模型、策略都会受到影响,你会发现咦,怎么最近通过率这么高,简直是喜从天降啊,一个月后就可以回家就业了。
附,参考资料:
1、风控三方数据评估介绍,https://zhuanlan.zhihu.com/p/134175231
2、第三方外部数据源测试结果返回后的分析思路,https://zhuanlan.zhihu.com/p/75540578
3、外部数据风控建模评估分析,https://zhuanlan.zhihu.com/p/104872477
4、实战大数据 | 量化策略之样本外数据测试的必要性,https://www.jianshu.com/p/89b4053f99e2