机器学习与数据挖掘玩转大数据大数据

贷款用户画像分析

2019-05-09  本文已影响10人  猴子数据分析

通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。

下面是社群会员的作业,本文最后会给出项目的修改意见,通过本项目提高你的分析思维。

一.项目数据介绍

数据来自拍拍贷真实业务数据。拍拍贷是美国纽交所上市公司。成立于2007年6月遵从金融本质,以数据为基石,用创新技术为用户提供最便捷可得的借款撮合服务,拍拍贷平台借款端服务包括面向广大个人用户的通用性借款和其他借款。

数据是从2015-01-01到2017-01-30的所有信用标的10%s样本。从下载的三个文件里选取我们需要用的LCIS excel文件。

这个excel文件里的数据共有37个字段,数据大小69MB,292539条信贷记录。下面是各个字段的含义:

二.业务指标

如果你不能衡量它,那么你就不能有效增长它。那么衡量的工具就是业务指标了。那是不是有指标就行了呢?

当然不是。指标也是有好和坏之分。好的指标应该是核心指标,并且应该是比率这样的指标才有意义。

而没有意义的指标肯定是坏指标,例如虚荣指标,只关注下载量、阅读量不关注真正的转化率,还有后验性指标和过于复杂的指标都属于坏指标。

金融行业风险业务指标尤为关键。风险业务指标包括:逾期天数DPD、逾期期数、逾期阶段、即期指标、递延指标、月底结算、期末结算、延滞率、不良贷款率、转呆账率、净损失率、FPD(首次还款逾期)。

下面是本人整理的金融行业指标:

三、提出问题和分析思路

互联网金融行业,逾期以及不良资产问题一直都是影响企业财报及业绩发展的绊脚石。

这次想集中研究逾期占比在各个维度中较高的特征,依次来得出失信客户的整体特征,来帮助企业尽可能规避此类问题。以及分析各维度的不良贷款情况,以及放贷比例,给企业提出一些有效的参考意见。

从用户维度和业务维度来展开分析。

用户维度:

1)失信用户画像,初始认证等级、年龄、性别、学历等维度的逾期占比分布情况如何?

2)失信用户行为分析,是否开淘宝店,是否有征信报告、是否完成户口认证、是否完成视频认证,是否第一次借款的逾期占比情况如何?

业务维度:

1)不同的年龄、性别会对还款能力和还款意愿产生什么影响?以及各年龄段、性别的放贷比例?

2)不良贷款率与不同的初始评级之间有什么相关性?以及各初始评级的放贷比例?

3)借款属性(类型、利率、金额、期限)的不同会对还款产生影响么?以及各借款属性的放贷比例?

基于以上信息,我从用户画像以及不良贷款率两个业务指标出发,按照以下思路进行分析。

选择以下16个维度对数据进行分析:借款金额、借款期限、借款利率、初始评级、借款类型、是否首标、年龄、性别、手机认证、户口认证、视频认证、学历认证、征信认证、淘宝认证、标当前逾期天数、待还本金。

四、数据清洗

1.将excel文件里的数据导入mysql中

2.为了方便分析,重命名列名问中文

3.空值、重复值处理

检查发现客户编号在记录日期限制条件下,有106个重复值。

执行以上语句,再次检查新表内空值和重复值均处理完成。

4.异常值处理

检查发现,手机认证,户口认证,记录日期存在异常值

将异常值做删除处理,得到处理完成的表lcisnew,共291230列。

5.检查数据,发现已经很完备,无需再做一致化处理

五.数据分析

1.用户维度

逾期用户画像分析用户的基本信息,包括初始评级、年龄、性别、学历分布

1)初始评级逾期占比分布

使用sql获得分析结果,然后导出到excel中进行绘制图表,完成可视化。

从上面图表中可以的得出结论:

初始评级为E的逾期用户比例最大,其次是D、F、C,而评级最高的AAA和AA级则基本上没有逾期的情况发生。

2)年龄段逾期占比分布

由数据统计可以看出,各个年龄段逾期占比相对平均,都在4%左右徘徊,但是18-22岁之间,这些刚刚成年不久的年轻人逾期情况最为严重。

3)性别逾期占比分布

从分析结果可以得出,在性别分类中,男女逾期占比差别不是非常明显,男性为4%比女性的逾期占比多一个百分点。

4)学历逾期占比分布

从分析结果中可以看出,在是否完成学历认证中,逾期占比差别也同样不是非常明显,当然完成学历认证的用户逾期占比比未完成的稍小一点。

逾期用户画像分析用户行为属性,包括淘宝认证、户口认证、手机认证、视频认证、征信认证、是否第一次借贷分布。

1)淘宝认证逾期占比分布

2)户口认证逾期占比分布

3)手机认证逾期占比分布

4)视频认证逾期占比分布

5)征信认证逾期占比分布

6)是否首标逾期占比分布

将以上六个用户行为属性维度进行可视化的结果:

对比以上六个维度可以得出的结论是:

已经完成淘宝店主认证的用户的逾期比例比没有完成淘宝店主认证的逾期比例小,而是否首标则对逾期情况基本上没有影响。

另外户口、手机、征信认证成功的逾期比例都要比未认证成功的逾期比例要高,这让我非常诧异,其中征信认证成功的逾期比例比未成功的比例高出很多。

比例高出这么多的原因是什么呢?

接下里试着寻找产生这个差别的是原因。

统计发现,拍拍贷平台96%之多的用户都是未完成征信认证的。逾期占比=逾期数量/总数。就是说未成功认证的总数也就是分母非常大,那么占比足够低,也就不足为奇了。

那么对于学历、户口认证、征信认证、视频认证、手机认证、淘宝店主等信息形成的逾期用户画像,我们还需要更全面的数据才能展开分析。

用户画像维度分析总结

1)逾期用户主要集中在18-22岁之间,这些刚刚成年不久的年轻人逾期情况最为严重。可能的原因是这各人群大部分是在校学生或者刚刚步入社会的,他们在缺乏稳定收入的情况下,过度超前消费提升生活品质,导致逾期的发生。

2)逾期用户较多是初始评级为E的用户,其次是D、F、C,而评级最高的AAA和AA级则基本上没有逾期的情况发生。

3)在性别差异和学历方面,男女逾期占比差别不是非常明显,男性为4%比女性的逾期占比多一个百分点。完成学历认证,大专及以上学历要比未完成认证的逾期比例要低。

2.业务维度分析

前面我们从用户画像维度进行了分析,接下里从业务维度进行分析。

1)不良贷款率随记录时间变化趋势

从图表可以看出,2016年中国互联网金融行业,经历了各种大事件,随之之后国家出台了更严厉的监管手段,而互联网金融行业的马太效应也尽显其中,前排企业占比大部分市场份额,成交增速放缓明显。从数据中看出,2016年下半年,拍拍贷资产不良率逐步提高,一直到2017年初,达到7.38%。

2)不良贷款率与年龄段、性别之间相关性分析以及按年龄段、性别的放贷比例

年龄段、性别的放贷比例

数据可视化结果:

由图中得出:

年龄段在42-50岁的范围内,不良贷款率最高达6.88%,35-42不良率也有6.36%的比率,而不良率最高42-50岁年龄段,对应放贷比例则是7.16%,35-42岁年龄段范围内,对应放贷比例是17%,不良贷款率超过了6%。这在控制整体逾期风险方面,是非常不利的。所以应当格外关注,降低该年龄段不良率,或者控制该年龄段放贷数量,以期将风险降低。

理想的不良率和放贷比例参数应该是负相关的。即随着不良率不断升高,对应的放贷比例应该越低,这样才能保证合理的风险控制。男性不良贷款率比女性高,放贷比例大小男性又处于绝对优势。建议平台可以在放贷比例上,多放给女性,以期均衡风险。

2)不良贷款率与初始评级之间相关性分析以及按初始评级的放贷比例

由图可见:

放贷70%比例集中在初始评级为B和C的用户,评级最低的F,放贷量最小为0.09%,E也仅仅只有0.69%。在风控方面拍拍贷的评级指标和放贷比例搭配相对科学合理。

B级次优用户,作为平台的主力用户群,拥有不到4%的不良率和近一般的借贷总额,是比较合理的选择,同时AAA级用户的放贷比例非常低,可以大力开发。

同时整体上除却AA和AAA级用户的开发上看,不良率和放贷比例基本处于负相关,属于比较合理的坏账控制的结构,在D级用户和C级用户的放贷比例上,还有合理的压缩空间。

3)不良贷款率与借贷类型、利率、金额、期限之间相关性分析以及按其分配的放贷比例

不良贷款率与借款类型之间相关性分析,以及借款类型放贷比例

不良贷款率与借款利率之间相关性分析,以及借款利率放贷比例。利率分组(7-10,10-13,13-16,16-19,19-22,22-24)

不良贷款率与借款金额之间相关性分析,以及借款金额放贷比例。借款金额分组(<1200,1200-8000,8000-20000,20000-50000,50000-80000,,80000-120000,120000-200000,200000-300000,>=300000)

不良贷款率与借款期限之间相关性分析,以及借款期限放贷比例。

对分析结果进行数据可视化:

由图可见,

借贷类型中,应收安全标的不良率最低,几乎为0。应收安全标,拍拍贷平台上借款标的的一种。用户以自身在拍拍贷站内应收账款作担保,满足"应收账款大于借款金额"的条件。而电商类型的不良率则60%以上,并且在放贷比例上,电商类型的借款占比也是28%左右。所以应该要注意更多开发除电商类型之外的借款类型,降低电商类借款比重,降低风险。

借款利率在13-16这个区间内,不良率达到16%,25%的放贷比例偏高。整体上拍拍贷平台借款利率以13-19为主力。而利率7-10和13-16两个区间的用户不良率相对最高,还款意愿较差。

借款金额和不良率相关性整体上看,随着借款金额变大,不良率有升高的趋势,其中20w-30w之间,不良率最高,而大于30w以上的不良率又相对不高。这其中的原因,需要更多的数据进一步分析得出。借款金额的不良率和放贷比例整体负相关,符合降低风险要求。

借款期限的不良率和放贷比例负相关性较差,可能无法有效降低风险,其中80%以上的放贷贡献是半年和一年短期贷款,一般都是周转资金,很快还款的,这可能是由平台的用户分类决定,这些短期借款的具体用途和用户特点,我们需要更多的数据支持。

六.分析总结和建议

1.逾期用户画像

1)逾期用户主要集中在18-22岁之间,这些刚刚成年不久的年轻人逾期情况最为严重。这各人群大部分是在校学生或者刚刚步入社会的,他们在缺乏稳定收入的情况下,过度超前消费提升生活品质,导致逾期的发生。

2)逾期用户较多是初始评级为E的用户,其次是D、F、C。逾期用户更多可能性是男性。并且未完成学历认证的。

关于逾期用户画像,我们还需要更多具体有效的数据才能更好的描述用户,建议平台根据逾期用户画像,更审慎开展业务。

2.不同维度下,不良贷款率相关性

1)年龄在35-50岁区间范围内,不良贷款率相对较高,而女性用户的不良贷款率较低,还款意向会更强。35-50岁区间,不良率较高,放贷比例较高。

建议降低该年龄段不良率,或者控制该年龄段放贷数量,以期将风险降低。

2)评级方面,平台70%以上的放贷给到B和C初始评级的用户。而E、D、F三个评级最靠后的用户,不良贷款率也是最高,逾期发生的可能性也是最高。

这跟平台的评级体系一致。建议压缩C和D的放贷量,并且更多开发AA,AAA级用户借贷需求。

3)借款属性方面,借款类型中应收安全标,不良率最低,而电商类逾期的可能性最高,同时放贷比例较高,鉴于不良率和放贷比例负相关,建议压缩放贷量。

利率中,7-10最低利率,不良率相对最高,违约发生的可能性更高;借款金额方面,整体上金额越高,不良率想对越高。

而借款期限方面,平台主要用户借贷以半年、一年的短期为主,其中24、12、6、7的借款期限不良率较高,发生违约可能性较大。

上面项目来自社群会员未优化之前的内容

(https://zhuanlan.zhihu.com/p/61649855)

下面是项目修改意见:

1.用户画像没有构建出来

虽然分开来说用户画像里的每个部分,但是没有总结说出逾贷的用户画像。画像是一个人的立体,你把他拆分开了,就不知道这个逾期的的具体是怎么样,只能是看到一部分。

怎么样才能立体的输出呢?

相当于是一个人,然后你要做个总结,逾期率高的人,年龄,学历等等都是怎么样的。

2分析应该再深入一些找出具体原因,如何深入分析呢?

深入分析举个例子,假如数据分析结果发现男性逾期率高于女性,这时候你要问自己一个为什么?

这与学历有关系吗?与注册有关系?数据是关联的,而不是独立开的,所以你要深入去分析,多问一下为什么。

而你这里没有深入分析,是因为犯了一个主观性的错误,天然就觉得男性逾期率更高,而不去探究他的具体原因。

每做出一个结论,就打一个问号?为什么是这样?然后去分析一下,这也是数据分析中的批判性思维。

应该每个结论都问一下为什么会这样?导致这样的结果有哪些影响因素?再去分析一下,锻炼你的分析思维,不然你的结论就会停留在表层,显得很鸡肋。

例如18-22岁的逾期率更高,这恐怕从事银行行业1年的人都会知道,你每次都只是得出这么表层的结论,那银行要你来干嘛!所以你要更深入分析这个原因,给出更好的解决方法来。

3.建议给的太浅,不具有执行性

比如18-22岁的人刚出校园,发生逾期率高,应该怎么处理?这个你应该思考一下。

用户画像出来,建议给的不好,解决的都是浅层次的问题。

更深的层次的应该是做一个逾期用户画像他的目标是什么?他要解决什么问题?

做个假设,既然用户画像都有了,为什么不建个信贷用户风险体系呢?每个点都设个分数,然后得出总分,最后来把用户分等级,例如年龄18-22,为9分,初始评级E为9分,最后把这些项目得出总分来,就是这个人的用户画像的。

比如超过70分的就不贷,或者限制贷款数量等等。每个人都给以不同的贷款等级。所以建议你做个信贷用户风险分析,你那些建议都是很浅层的,不能根本解决信贷公司的问题。

4.对数据不够敏感

比如分析中说3%-4%觉得不明显,这其实在统计上都是30%的差异了。

做项目的过程就是一个不断优化学习的过程,希望社群内部的讨论和建议可以帮助社群会员更好的完善项目。

推荐:如何用最短的时间找到初级数据分析师工作?

上一篇下一篇

猜你喜欢

热点阅读