消金时代:谈谈数据与风控的那些事儿
本文导航
1、 消费金融现状
2、 征信数据的构成
3、 大数据风控
4、 消费金融风控体系
5、 总结
1、消费金融现状
互联网消费金融时代,如何科学合理的利用大数据进行风险控制,建立基于大数据的互联网金融整体解决方案?
我国消费结构正在从吃、穿等生存型消费向教育、旅游等发展型和品质型消费过渡,消费升级使得消费金融迎来爆发时刻。互联网消费金融能够通过“消费金融化、金融生活化”,实现金融资源跨期、错期配置,还可为消费尤其是电子商务提供良好的金融服务环境。风控对于金融来说永远是核心,无论是传统金融还是互联网消费金融。所谓风控,无外乎就是在一大堆看似正常的用户中将一小撮“坏人”揪出来,因此这当中就会有“求真去伪”的问题。而谈到风控,就一定要讲数据,因为巧妇难为无米之炊。因此本文想和大家一块来谈谈数据与风控的那些事儿,毕竟这是一件痛苦并快乐的事情。
传统金融的风险控制,主要是基于央行的征信数据及银行体系内的生态数据依靠人工审核完成。而央行征信系统里真正有信贷记录的自然人数仅有3.7亿人(2015年数据),因此其他人就需要靠其他的数据来进行信贷风险的判断。随着互联网的发展和大数据的崛起,有效地将征信数据范围做了很大的延伸,使得我们可以利用更多的非金融机构数据进行风险控制,如BAT等公司拥有大量的用户信息,这些数据可以更加全面的预测小额贷款的风险,这也是现如今大数据征信市场一片火热的主要原因之一。
2、征信数据的构成
互联网消费金融征信数据来源可以分为如下三部分:场景内数据、平台自身数据和外部征信数据。申请贷款时,用户需要提供部分申请信息,如工作信息、学历信息、收入信息等,除此之外合作的平台或场景方也可提供部分信息,如贷款申请时的行为信息等,这些数据我们称之为场景内数据。
以BAT来说,其拥有丰富的生态体系内数据,这就是平台自身的数据。如果贷款平台较大较成熟,且有足够的数据积累,风控则会较弱的依赖外部征信数据;但实际情况是,互金平台都比较小,场景内数据又有造假嫌疑以及出于用户体验的考虑,不会有太多,因此我们会依赖外部征信数据,这也是现在第三方征信数据市场火爆的原因,除了八家准牌照外,还有大大小小的以咨询方式为主的数据公司近百家。这些互联网金融大数据公司均可按其模式归为以下四类:反欺诈,如同盾、百融、猛犸;信用评估,如芝麻信用、鹏元征信、前海征信;数据查询,如启信宝、汇法网;数据开放平台,如数据宝、京东万象、聚合数据。
3、大数据风控
谈到如何更好的利用外部数据?很多人浮现在脑海里的肯定是大数据风控或大数据风控模型。而提到大数据风控(模型),会有很多人想到AI、机器学习、数据挖掘甚至会把Deep Learning也搬出来。大家潜意识都认为如果大数据风险不提应用了gbdt、xgboost、神经网络等等复杂模型则默认这风控做的很low。个人感觉,“大数据风控“这个词现在有点被神化了。从实际风控业务来讲,当前还没有达到能够直接将AI或很复杂的数据挖掘算法直接应用到风控业务中来。受制于数据、正负样本、征信成本、产品体验等各方面原因,很复杂的模型或AI往往在实际业务中不能有效的跑起来。当然并不是否认AI或机器学习等在大数据风控中的应用价值,我相信未来AI、机器学习等将在大数据风控中发挥至关重要的作用。
在这方面,我想和大家分享下我们在大数据风控上的一些小小心得。我们没有一味的去追求建立或运用复杂的模型,但是我们的风控策略或风控模型却又一直灌注着机器学习和AI的思想。举例来说,黑名单数据深得各家互金公司的宠爱,几乎是来者不拒。但因数据污染等问题的存在,市面上各家黑名单的质量参差不齐,而且整体质量有不断下降的趋势。因此如果还是按照命中黑名单就拒绝这种强规则逻辑肯定不适合,且会将很多本质上是优质的客户拒之门外。
在这里我们可以借助Adaboost算法思想更好的挖掘黑名单的价值,集众家之所长。
图1:Adaboost算法结构借助这个算法原理,可以把每家黑名单当成一个弱分类器,随着接入外部黑名单数据源的不断增加,根据各家黑名单的表现给予各家一定的权重,最终构成一个强的分类器。并根据不同的场景设置不同的阈值去判定此用户是否准入。
4、消费金融风控体系
聊完了征信数据的构成和数据的使用,那互联网消费金融的风险来源主要有哪些,如何防范这些风险呢?
互联网消费金融因其虚拟性,主要风险集中在两方面,一是欺诈风险,一是信用风险。
图2:风控流程示意图针对互联网消费金融风险主要表现在欺诈风险和信用风险,因此核心的风险评估流程就是反欺诈和信用评估。对于反欺诈来说,信息核实、高危人群拦截和批量识别是其核心风控手段。而对于信用风险的评估,说到底还是对其收入进行认定,也就是衡量其偿还能力。
互联网消费金融风控在流程上与传统风控一样,可分为贷前、贷中、贷后,但又有差异,因为业务的特点就是线上实时审批,也称之为“秒批”;贷前我们主要关注的是准入和授信两个环节,通俗的说就是贷前实时反欺诈和实时信用评估;贷中主要关注的是贷中异常的监控和贷中运营,比如好的客户我们要不断的进行调额;贷后上主要关注的是催收,因为催收做得好,很多信用风险问题都可以解决。
5、总结
本文简单介绍了消费金融的征信数据构成、风控体系,以及结合众安保险的应用实例分享了下众安保险大数据风控的小小心得。大数据风控听起来非常高大上,但在实际工作中也经常会遇到一味炒作概念的人,过分夸大其中机器学习和AI所能起到的作用,或者盲目的追求高深复杂的算法。科学合理的利用好大数据,发掘大数据的价值,可以有效的帮我们控制金融风险。
随着互联网的普及,传统企业包括金融业纷纷拥抱互联网,寻求其在互联网生态下新的业务模式,同时各个垂直领域的小微企业也在向互联网进行迈进寻找其商业机会。然而互联网带来便利的同时,也带来很多新风险,需要依赖大数据进行有效的风险防范。与此同时,互联网海量的流量与客户资源也带来企业运营模式的改变,如何运用互联网海量流量提升运营效能将是企业面临的新挑战。众安科技致力于在线实时大数据风控,为小微互联网金融平台、互联网化进程中的传统金融机构提供基于场景化的大数据风控解决方案,切实全面解决其面临互联网化新业务模式下的核心风控需求。最后,希望有更多的同学加入到互联网金融大数据风险控制的研究中来。
更多风控干货,欢迎关注微信公众号:众安数盟