Lending Club贷款数据分析

2019-03-12  本文已影响0人  山峰_69e9

背景

Lending club之所以一度成为全球p2p行业老大的地位得益于其风控系统,不过中美信用体系,金融行业发展程度相差很大,lending club在交易中只充当交易平台,风险由投资者自己承担,lending club 利用其风控系统一度将坏账控制在很小的比例,我们当然好奇这套模式具体是怎样的?

* 如下图所示:lending club的风控体系分为三步:

* 初步筛选(决定是否准贷)

* 进一步评估

* 深度评估(决定利率)

风控流程图

以上我们看到初步准贷的条件有4点,第一点借款人的信用评分不少于660分,这个要求就很不低了。看来lendingclub的准贷门槛很高,不是什么人都能得到贷款,这也是对在lendingclub上投资客户的负责。

第二步进一步评估过程会整合借款人的条件,将他们分为从A1到E5的25个等级

一、提出问题

1.了解lending club的2007-2015年经营信息 ,如:每年交易数变化、每年放款金额变化、每年交易客户数变化,每年人均贷款金额变化。

2.总坏账数,每年的坏账率怎么样?

3.客户贷款需求多集中在什么金额范围内?都选择多久还款期限?

4.利率在什么范围内?

5.Lenging club信用等级风控模型是否管用?坏账出现出现在哪个信用等级上了?

6.工作多少年对于贷款发放来说是好的,什么是不好的?

7.坏账与年收入是否有关系?

8.什么贷款目的是好的,什么贷款目的是坏的?

二、理解数据

数据来源:

https://www.kaggle.com/wendykan/lending-club-loan-data/home

主要包括 6大块数据信息

* 基本贷款信息包括,贷款ID、会员ID、贷款金额、贷款期限,分期付款金额,贷款日期,贷款状态;

* 授信信息包括信用等级,利率;

* 个人政务信息包括房屋拥有情况,工作,工作年数,年收入,资产收入比值*100;

* 其他信息包括贷款目的;

* 地理信息:邮编,州;

* 公共记录信息包括过去两年内信用档案中逾期30天以上的次数;

* 过去6个月的查询数目(不包括房屋和汽车按揭);自借款人最后一次拖欠债务以来的月数等等;

三、数据清洗

1.选择子集

2.列名重命名(此案例不需要重命名)

3.处理重复数据

4.数据类型转换

5.排序

四、构建模型及可视化

1.了解lending club的2007-2015年经营信息 ,如:每年交易数变化、每年放款金额变化、每年交易客户数变化,每年人均贷款金额变化。

2007-2015年,lending club上交易的客户数直线攀升,由于贷款期限3年或者5年,没有重复贷款的客户,客户数量的攀升给lending club平台带来不断增长的交易量,这应该是平台信誉积累的结果。

2.总坏账数,每年的坏账率怎么样?

2007-2015年坏账率控制在7.60%的范围,这应该说非常不错,但是我们要注意的是,平台这份数据集还有60万个订单处于‘current’状态,当中一定会出现坏账,我们不能知道到底会最终有多少坏账出现。

3.客户贷款需求多集中在什么金额范围内?多选择多久还款期限?

客户一般能从lending club贷到不超过3.5万美元,选择三年还的人比较多。

4、利率在什么范围内?

lending club贷款利率平均值是在13.2%,还是比较低的。总体范围在5.3%--29.0%之间。

5.Lenging club信用等级风控模型是否管用?坏账出现出现在哪个信用等级上了?

1.很有意思的是坏账并没有随着评分等级而正相关,‘G’的贷款中坏账反而最少,要知道他们的利率是最高的!有可能是因为lending club的风控措施对‘G’的客户拒贷了,控制了这部分风险。

2.‘A’的坏账少得益于信用好,这个可以理解。这当中恐怕最不能理解的就是‘C’的坏账最多。中间等级的坏账都不怎么好。看来对于‘C’‘D’两级的风控评分政策得要重新调整下比较好了。

6.工作多少年对于贷款发放来说是好的,什么是不好的

坏账竟然很多出现在工作10年以上的客户身上,不过我们看到对工作10年以上的客户发放基数是最大的。对工作10年以上客户的风控审查得更加严格比较好,推测可能是工作10年以上的用户负债压力的大的缘故。

上一篇下一篇

猜你喜欢

热点阅读