大数据应用于网络信用平台信用风险
j.zhang xc.li zl.xv
指导老师 sc.jiang
摘要:近年来P2P网贷成为了一种新的理财方式,但是不少P2P网贷平台只是昙花一现。目前认为可持续的P2P网贷的模式一种是基于大数据的P2P网贷平台模式,一种是传统的抵押贷款加上互联网的模式。
本文希望试图通过研究P2P和大数据的结合,探讨大数据在P2P信用评估上的作用,提出我们自己对于大数据应用的研究设想,结合具体案例为大数据应用于P2P网络借贷信用评估作出分析,最后分析大数据应用于P2P信用评估的优势与困境,为P2P这一新兴产业的可持续发展模式作出研究。具体来说,本文主要,对于拍拍贷,阿里小贷两家典型的P2P网络借贷平台进行分析,进而采用了数据分析,统计模型中较为常用的逻辑回归来对科学的信用评估模型提出设想。
关键字:P2P网络借贷平台,大数据,信用评估模型,风险管理
一?背景介绍
1.1大数据是什么?
大数据主要指以云计算为数据处理技术平台的新的数据处理方法。概念最早是由咨询公司麦肯锡提出。其主要有四“V”特征 ,即 :Volume(特大的数据量)、Variety(特别多种多样的数据)、Veracity(数据真实性高且有价值)、Velocity(输入和处理速度快)。大数据技术核心在数据挖掘方面,即利用分类、关联规则、复杂数据类型挖掘(文本、网络、图形图像、视频、音频等)等技术进行挖掘。最后,通过预测模型、建模仿真等进行预测,并通过云计算、关系图、标签云等进行结果呈现,实现堆积数据的再挖掘、再利用。传统数据多事基于结构性的数据,有固定格式,表格可以记录的,而大数据的特点在于同时包括结构性与非结构性的数据,包括图片,音频视频网络日志等,数据的量非常大;大数据所分析的是事物间的相关关系,而非因果关系,重点在于弄清是什么,而不是为什么。大数据为了数据的全面性,牺牲了数据的精确性,准确性。对于数据的处理也从以计算为中心,转变为以处理为中心。
麦肯锡在《Big data: The next frontier for innovation, competition, and productivity》列出了各个行业利用大数据价值的难易度以及发展潜力。
图1各个行业利用大数据价值的难易度以及发展潜力
?
麦肯锡也列出了大数据时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。
1.2P2P网络借贷是什么?
P2P是peer-to-peer的缩写,网络借贷指的是借贷过程全部通过网络实现,它是随着互联网的发展和民间借贷的兴起而发展起来的一种新的金融模式。P2P网络借贷平台在英美等发达国家发展已相对完善,这种新型的理财模式已逐渐被身处网络时代的大众所接受。
发展至今由P2P的概念已经衍生出了很多模式。中国的网络借贷平台已经超过2000家,平台的模式各有不同,归纳起来主要有以下四类:
1.2.1担保机构担保交易模式
这也是最安全的P2P模式。此类平台作为中介,平台不吸储,不放贷,只提供金融信息服务,由合作的小贷公司和担保机构提供双重担保。此类平台的交易模式多为“1对多”,即一笔借款需求由多个投资人投资。由国内大型担保机构联合担保,如果遇到坏账,担保机构会在第二日把本金和利息及时打到投资人账户,所以是最安全的一种模式。
1.2.2P2P平台下的债权合同转让模式
可以称之为“多对多”模式,是一种非典型的P2P的线下模式。借款需求和投资都是打散组合的,自己作为最大债权人将资金出借给借款人,然后获取债权对其分割,通过债权转让形式将债权转移给其他投资人,获得借贷资金。
对外放贷金额必须大于等于转让债权,如果放贷金额实际小于转让债权,根据《关于进一步打击非法集资等活动的通知》,属于非法集资范畴。
1.2.3大型金融集团推出的互联网服务平台
此类平台是由传统金融行业向互联网布局,因此在业务模式上金融色彩更浓。
1.2.4以交易参数为基点,结合O2O的综合交易模式
这种小贷模式创建的P2P小额贷款业务凭借其客户资源、电商交易数据及产品结构占得优势,其线下成立的小额贷款公司对其平台客户进行服务。线下商务的机会与互联网结合在了一起,让互联网成为线下交易的前台。
1.3 p2p和传统银行的区别
1.3.1集资能力强,可提供的贷款金额比传统银行充裕。
由于p2p平台的利率高于银行,更多人会把钱放在平台上。
1.3.2手续简便
与传统的贷款众多繁琐的程序相比较,P2P网贷拥有非常简洁的操作程序。目前的网贷趋于小额化,有些无需贷款者提供抵押,更加简化了贷款的手续。
1.3.3形式灵活
P2P网贷形式非常灵活。银行理财产品都是一次性本息付清,资金流动性不够,而P2P网贷平台推出的产品通常都是按日计息,随时换回,资金比较活络。
1.3.4门槛低
P2P手续费比银行理财产品低,起投门槛也比较低,甚至推出了1元起投,吸引更多的出资者。
1.3.5资金流向明确
很多银行的产品经理和出资者都不清楚自己资金的流向、用途、收益、风险。而很多P2P网贷平台都公示了资金用途,包含借贷给谁,借款方的还款时间,等等。P2P网贷比银行清楚很多,让出资者定心了很多。
根据论文:p2p借贷平台可以通过借款人和贷款人之间的社交互动来减小坏账的风险,投资人相较银行更加风险偏好。
研究指出在名义利率为8%时,有最大的内部收益率。
盈利点并不是吸引高质量的贷款方,而是鼓励投资低质量的贷款项目。
?
1.4大数据如何分析数据
当前,大数据处理方式可分为两大类,数据批量处理和数据流处理。前者采用先存储后处理方式,不追求数据的时效性。后者对实时性要求相对高且处理速度快的需求,采用直接处理方式,是一种“化整为零”的策略。
对于P2P网贷平台信用评估而言,需要的更多的是数据的批处理。所以我们着重介绍数据的批处理过程。
图2大数据的处理流程
主要过程是获取数据源,进行数据抽象和整合,数据分析,数据解读,用户使用
其中数据的抽取与集成特点为先有数据后有模式,而且模式在不断演进中。批处理的核心在于数据分析。其特点为数据必须进行预处理以排除干扰,算法需要调整,结果衡量困难(因为数据庞杂)。最后的数据解释需要把结果变成可视化形式。
二?大数据应用于P2P网贷的研究设想
2.1 P2P平台应用大数据的优点
对于P2P网络贷款平台而言,最大的目标客户群体是那些小额的,表面上看信用度较低,被传统的金融行业拒之门外的资金需求者。例如美国的finance,其客户多是根据传统的信用评分模型被银行业拒绝贷款请求的群体,因此基于传统的信用评估体系,这部分客户群体很难得到授信。为了在这个基础上实现创新,争取被传统银行业放弃的市场、降低违约风险,finance充分利用大数据时代所的便利,通过传统行业以及网络社交、电商等平台获取海量的客户数据,利用大数据分析工具对数据处理,分析,得到更为丰富也更为准确的信用信息。实现了对客户筛选,信用打分的过程。对于小额资金的委托人来说,获取这些数据的时间成本和交易费用过高,对比小额贷款所带来的收益,可能会得不偿失。委托人很难对代理人的信用等级进行打分,将损失降到最低,因此通过P2Pp平台方的力量实现对这些数据的收集,分析,从而降低成本的需求巨大。
另一方面,在委托人将资金借予客户后,客户对于所得资金的使用方式有多种选,委托人无法确保借出的资金用于代客户所承诺的事项,当客户将资金用于高风险的行业时,委托人也面临着很高的无法收回本金的风险。如何解决信息不对称问题,对于P2P网络贷款平台而言,提供平台并向委托人提供信息服务,收取费用是一个很好的选择。P2P网络贷款平台根据自己所掌握的资源获取代理人的大数据,利用信用评分模型进行评估打分。特别是当平台规模达到一定程度以后,信息的二次利用会为平台降低信息搜集成本,带来巨大利润。
?
2.2大数据分析方法
目前所使用的个人信用评分模型主要包括5C模型,也即character(借款人品德)、capacity(经营能力)、capital(资本)、collateral(经营抵押)、和condition(经营环境)。
(1)character(品德),也即客户按期履行还款义务,承担相应的责任的可能性。是评估客户信用的首要指标,道德品质主要评估的是客户的还款意愿,以及在不能如期履约时的承担责任的可能。这决定了委托人能否及时收回本金并获取收益。
(2)capacity(能力),也即偿债能力。通过考核客户的资产负债比例,结合客户的流动资产数量和质量做出判断。客户过往的偿债记录也能作为偿债能力的参考。
(3)capital(资产),这部分考核的是用户的财务实力与财务状况,主要针对客户在偿还债务时可信赖的财务背景,是信用评分模型里的重点。
(4)collateral(经营抵押)。经营抵押也即在客户不能按时还款付息的情况下,可以通过抵押资产来偿还债务,这对信用历史较差,或者是首次通过P2P网贷平台进行贷款的客户而言格外重要。
(5)condition(经营环境)也即可能会导致客户产生较大违约风险的经济环境,包括客户个人的经济环境与整体的宏观经济环境。例如客户个人的财务问题,投资决策失误等导致其在一定时间内的流动性出现重大问题,以及在宏观经济出现危机时,客户所在的行业发展低迷,可能导致在短时间内无法收回成本,进而有较高的违约风险。
图3 5C分析法
对5C模型,也有人创新性的提出了5W模型:who(借款人)、how(通过何种方式还款)、why(为什么要借款)、what(抵押担保物是什么)、when(何时还款)这五个维度,综合评定客户的信用等级。同时还有5P模型等。无论是何种信用评分的模型,都是通过大数据分析。
2.3大数据获取
在信息爆炸的今天,数据的获取非常容易。个体的一言一行都会被电子设备记载下来,转化成数据。传统的包括银行会记录下客户的资金流水,从存取记录,到借贷余额,还款情况;商店记录下与顾客交易的收付情况,学校登记学生在校期间的奖惩信息,企业记录员工的工作情况等。新兴的如网络电商会记载顾客消费记录,甚至是浏览记录;虚拟社交平台可以记载用户的每天的日常活动,朋友圈子的大小,日活跃度等信息;可穿戴设备无时无刻的测度和收集使用者的活动数据,现代社会无时无刻都在收集数据,处理数据。
按照数据的内容划分,大数据的来源包括三大类:(1)属性数据。包括年龄、职业、收入状况、家庭住址等;(2)征信体系留存的信息。征信体系又包括三个方面,金融征信,主要通过金融行业主管部门主导建设;商业征信,行业协会及其会员主导进行建设,主要收集企业及个人的商业信息,来应对交易风险和管理风险;行政征信。行政征信的主导部门为政府的行政机构,同样以企业和个人为主要的征信对象,用户群为政府本身,通过行政征信来实现信用惩戒与预警监管的统一管理。(3)个体的网络活动,包括网络社交平台的活动产生的信息,诸如朋友圈的活跃度,亲密朋友个数,个人偏好等;还有上网记录,在电商平台的购物,浏览记录,每个月网购消费次数,消费金额等。
?
2.4大数据的处理
在收集到数据后,开始对数据进行处理。数据处理分为数据准备---数据清洗和汇总--变量筛选---评分模型开发与验证--评分模型的监控与再开发,如图2。
图4大数据的处理
?
?
?
在应用大数据之前,对关键名词进行定义。信用评分模型的分析结果表现为两种结果,可以贷款与不可贷款。对应着好账户与坏的账户。历史经验表明,一般而言,超过表现窗口,逾越在30天以上的可以做违约处理定义为坏账户,1―30天的为待定,其余为好账户。
数据准备也即前面提到的数据的收集,包括来自于三大征信体系(金融征信,商业征信,行政征信;及客户的互联网数据,包括电商平台的浏览和消费记录,上网记录,社交平台数据,亲密朋友数量,朋友圈日活跃度等)
然后是数据的清洗与汇总。数据的清洗过程可以借助于文本识别和图像识别等工具。对海量的数据进行筛选,留下对信用评分有关的信息,同时将繁杂的非结构数据转为可供分析的数据,例如将上网记录转变为上网时长,浏览商品的次数,浏览商品的价格,偏好。对部分虚拟变量,如年龄、性别等采取赋值的办法。当样本数量较大的时候,还可以对数据进行细分分析。将比较大的样本分为若干个性质相同的小组,对每个不同的组别设计评分工具和业务策略,最终得到最有效的信用评分模型。当然,在样本数据较少的情况下可以不做要求,直接在总体样本上进行数据分析和模型建立。
其次是变量筛选。通过各种渠道筛选到的变量指标有数百个,还包括各种非结构的数据。所以需要对变量进行筛选。考虑到可能存在的数据的残缺程度,很多指标只是部分客户群体具有,另外一部分没有。当数据残缺率过高时,就不适合作为模型参考变量;另外一种解决方式是对残缺值赋零,根据指标值的重要程度而确定。同时,在筛选数据的时候,为了防止异常值对模型结果产生较大的影响,设置变量值的上限与下限,也可以采用取对数等于因变量关系较为密切的方法对异常值进行处理。
在进行模型分析之前,还需做稳定性分析,信息值分析,相关关系及逐步回归判别分析。稳定性分析采用PSI(Population Stability Index)法来衡量,通过稳定性分析,可以验证模型在将来的业务中也会有稳定的而表现;信息值分析是主要考核变量的好坏,信息值越高的变量,对模型的说明长度越高;还有相关关系分析。相关关系分析包括单变量分析,双变量分析,及多变量分析等,主要是通过考核变量间相关关系的程度。逐步回归判别分析,这部分主要通过stata数据分析软件,通过逐一引入模型变量的方式,当加入下一个变量的时候,对模型进行重复评估,保留那些对模型显著性有明显改善的数据,去除对模型显著程度无明显改善的变量。
2.5模型分析
根据数据处理保存下来的指标,选用logistic回归(或者神经网络,线性回归等方法)建立模型,通过软件得到指标值和参数值等,进而做信用评。前面提到过,信用评分模型的结果为一个二元变量,好账户或坏账户,所以一般模型回归采用logistic回归的方法。假定经过前面的数据处理保存下来的指标变量个数为N个,对应的指标变量为X(X1,X2,X3…..,Xn-1,Xn),条件概率的公式为P(Z=1|X)=P为根据观测变量的分析结果得到的好账户的概率,logistic模型可表示为P(Z=1|X)=.(f(x)=β0+)logistic函数模型为如下图:
图5逻辑函数
?
三?案例分析
3.1以拍拍贷为例的大数据应用于P2P的个人信用模型分析
以往的对于个人的信用分析主要通过个体状况分析,主要包括基本信息(姓名、身份证号、住所等)、教育及技能信息(学历、资格证书等)、收入及资产信息(工资、房产、汽车等)、工作信息(行业、单位、职位)、关系信息(婚姻状况、子女状况等),以往信用记录进行分析。存在速度慢。
国内拍拍贷网贷平台通过搜集整理个人信息,结合个人的社交信息和网购行为对个人信用进行综合评估并推算其可能违约的成本。
其中社交网络行为分析是指从高科技的社交软件如微信、微博、人人网、论坛等出发,通过记录好友数量、粉丝数量、发帖内容等因素对其进行信用评估。评估体系认为在社交网络越活跃、朋友越多的人,违约风险越低。如今人们对这些网络社交软件的依赖高于电话短信,导致越来越多的社交网络信息可以被采集并利用起来对一个人的信用进行评估,使P2P信用评估体系愈发完善、准确。
网络购物行为是征信评估中唯一一个把行为与金钱密切相连的重要因素。通过分析个人购物行为及电子账户资金流水,来了解个人的消费能力及资金状况,并在此基础上进行信用评估。拍拍贷以主打网商标的和网购标的来间接搜集网络购物信息,其平台约50%的借款人为电商用户,以天猫用户居多。
?
?
?
?
?
?
?
3.2以阿里金融为例的现行中小企业信用模型分析
首先根据样本数量,采用随机抽样或者跨时间验证样本确立样本,定义目标变量。通过对历史时段值的统计汇总,如过去6个月的平均值,极值,次数,比率等生成模型变量
主要通过对于变量的上下限的处理,变量缺失值的处理,以及对变量转换和变形进行模型变量处理。
其次模型开发的关键是变量选择和逻辑回归运算。通过单变量、双变量分析初步筛选,再根据稳定性、信息值、相关性等指标作筛选,使用步进判别的方法保留对模型影响最显著的变量。对选择的变量用逻辑回归作评分排序,用K-S检验校验模型的判别能力并检验模型的稳定性。
其中样本分为训练样本和预留样本,在数据足够充分的情况下还应准备跨时间验证的样本。训练样本用于模型变量的选择,及模型开发;预留样本用于模型的预测;跨时间样本用于检验模型的稳定性,考核模型在跨时间的情况下判断效果的准确程度。如果模型在不同时期的判断效果有显著差别,说明模型不适用不同时间的样本,需要进行改进。
图6稳定性分析
?
如图,为跨时间样本的点估计,可以看出两者较为一致,模型具有很强的稳定性,能够长期使用。除此之外还有跨时间验证增益表,增益图等可以辅助验证模型的稳定性。
最后建立的模型可以用来指定审批准入策略,额度授信策略,营销利率定价策略,催收策略调整帮助增加风控管理。模型还可以控制风险同时提高准入数量,更准确地授信,控制损失提高收益,提高催收效率。
?
?
四?大数据应用于P2P的优势和困境
4.1大数据应用于P2P网贷平台的优势
传统的风险控制机制已经不能满足P2P网贷平台的发展要求,如今数据的组成是15%的结构性数据和85%的非结构性数据可知,传统的分析只能分析结构性的数据,大量的可以反映借款人的性格,违约风险大小的非结构性数据被抛弃,所以P2P网贷平台需要使用大数据技术来对更为广泛存在的非结构数据进行分析。
作为一种新的技术,大数据有着非常广阔的应用前景。在一份由麦肯锡列出的表格中显示,,大数据在美国的七个领域有3.2到5.4万亿美元的潜在的经济价值,光在金融领域就有2100`2800亿,应用前景非常好。大数据在研究人的行为,从而进行风控,节约企业成本,分析宏观经济运行等诸多领域有着很重大的意义。
图7大数据在7个领域的经济价值
来源:Mckinsey
P2P网络借贷作为一个依赖于IT结技术的线上金融平台,其自身的优势是可以搜集到大量的客户的互联网上的信息,包括社交网络上的活动,网络交易等等。而大数据技术恰好可以充分利用这部分信息,发掘其中的价值。
目前在国外已经有很多大数据应用的成功的典范,大数据技术可以在风险控制,客户行为研究上承担很重要的角色
大数据在P2P上的应用优势主要有以下几点:
1.基于大数据的风险管理转变了借贷模式。
大数据推动风险管理理念和工具的调整。传统风险管理理念是通过财务分析、可抵押资产或权证评估借款人风险水平。然而大数据的出现使得对交易行为的真实性、信用的可信度的分析变得更加重要,风险定价方式转变为实时的、全方位的、立体的、动态的模式.
2.大数据提高放贷快捷度。
P2P行业发展的趋势是为客户提供个性化、快速、准确、高效服务。这些都建立在长期大量的信用和资金流的大数据基础之上,一方面有利于运用大数据金融的企业快速计算得出信用评分。通过网上支付方式,实时根据贷款需要及信用评分等大数据来放出贷款。另一方面,有利于管理匹配期限,有效地解决资金流动性问题。
3.大数据提高了P2P借贷的利润率。
资金融通以大数据、云计算为基础,自动计算为主而非人工审批为主的模式降低了贷款审查的边际成本,大大降低了风控成本,在美国的借贷市场中,LendingClub能够利用互联网技术把自身平台成本控制在2.7%,低于银行6.95%的成本是其核心竞争力所在。利用大数据还可以根据企业资金需求周期灵活决定贷款期限。同时,依托中小企业大数据,整合碎片化的需求和供给,做出统筹财务规划,拓展服务领域,进一步拉低了企业的运营与交易成本。此外,P2P可以根据客户背景数据分析,模仿Google广告投放的模式,在平台网站上推出有针对性的广告,从而提高主营业务外收入。
4.大数据提高了P2P行业的科学决策和风险管理水平。
大数据能够解决信用分配、风险评估、实施授权甚至是识别欺诈问题。利用分布式计算做出风险定价、风险评估模型,这些模型不仅可以替代风险管理、风险定价,甚至可以自动生成保险精算。基于交易借贷行为基础上的大数据也可以实时得出违约率、信用评分等指标,有利于金融风险控制.
?
4.2大数据应用于P2P的困境与限制
邓建鹏,熊明,任一奇在《大数据在P2P网贷中的应用与困境》中主要认为存在网络信息难以还原现实信息,金融信用和社会信用的相关性不确定,缺失闭环数据,数据的难以流通和大数据人才短缺这五点不足。
除了前人提过的不足,我们认为大数据应用于P2P存在的困境存在以下几点。
(1)P2P行业特性导致的困境
P2P的借贷双方往往一方指的是银行不愿意或者无法贷款、但却急需资金的“次级”客户;另一方指的是缺乏理财渠道的个人投资者。个人即使在现有平台的帮助下也往往难以辨别这些不优质的借款方。Stiglitz和Weiss(1981)预测道对于传统贷款,高利率因为低质量的借款方可能给贷款方带来低回报。根据Prosper,美国最大的P2P网贷公司的发现,IRR(内部收益率)当利率达到8%以后呈现单调不递增函数,利率超过28%后呈现明显的下降趋势。
以中国为例,中国2015的P2P平均利率在10%-15%之间浮动,主要还是依靠高利率来吸引投资,(数据来源http://www.p2p001.com/wdzs/wdzs_p2pline.html)其中部分公司,如人人贷采用“风险准备金”等方式为投资人提供保障,利用杠杆管理风险,一定程度上延伸了业务流程,带来更多利润的同时,风险也更大。
由于P2P平台还刚起步,目前无论国内还是国外都不缺少由于资金周转问题跑路的P2P企业。整个P2P行业也因为其自身相对的高风险,高利率而竞争激烈。不少公司往往陷入了高利率-高风险-高负担,面临资金链断裂。P2P平台在起步阶段除了少数资金雄厚的公司,大部分公司,无论是P2P平台还是名义上为P2P实质为金融公司,主要目标还是在吸纳贷款,扩张市场,还难以研发门槛较高,耗时较长的针对P2P的大数据技术。
(2)大数据本身的困境
诚然,大数据是未来P2P的必然方向,但是目前除了美国有完整的征信体系,很多国家尚未构建自己的征信系统,P2P平台难以从国家和企业获得自己想要的数据。这就不得不在早期增加很多的试错成本。
大数据的技术难度要求高并且需要较高的数据处理技术,首先处理非结构数据的技术难度较大,其次模型需要大量的数据投喂,验证,最后需要很长的时间来处理变量。
?
?
参考文献
[1]刘春霖.基于大数据技术的银行业发展分析[J].硅谷, 2015(04):105-106.
[2]邓建鹏,熊明,任一奇,等.大数据在P2P网贷中的应用与困境[J].金融电子化, 2014(12):38-40.
[3]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学, 2015(01).
[4]Manyika J, Chui M, Brown B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity[J]. Analytics, 2011.
[5]陈伟.大数据引领P2P信贷行业发展[J].时代报告:学术版, 2015(1):217-217.
[6]希财资讯.P2P网络借贷与传统金融的区别[EB/OL]. http://www.csai.cn/touzi/594197.html.2014-09-09
[7]安心贷.P2P网贷相对于传统贷款的优势比较[EB/OL].http://www.anxin.com/news/industry/3336.html.2015-01-20
[9]P2P投资理财和传统银行深处的不同(https://www.batiaoyu.com/stc-4260-news-txt.htm)
[10]八条鱼.银行贷款和P2P网贷对比分析[EB/OL].http://www.douban.com/note/458686514/.2015-05-26
[11]曾伟,孔新川,陈威,等.大数据发现银行贷款风险[J].大数据, 2015(02).
[12]彭涛.大数据时代的小微信贷――兼论银行与电商平台的竞合关系[J].时代金融旬刊, 2013(15).
[13]张琪,张鑫.我国个人征信体系市场化研究――以芝麻信用分为例[J].现代商贸工业, 2015, 36(16):173-175.