Prosper贷款数据探索(R)
项目介绍
Prosper是美国的一家P2P在线借贷平台网站。p2p借贷是指不需要以银行等传统金融机构为中介,借贷双方直接通过网络平台交易的无担保借贷、借款人可以以低于银行贷款利息快捷方便借到钱而放款人可以获得高于银行存款的利息。本项目主要探索借款人的哪些特征信息对借款人违约有影响。
数据变量
# 查看数据集变量数量以及行数,81个变量,113937条记录
dim(prosperLoan)
# 查看具体变量名
names(prosperLoan)
数据集来自Kaggle,一共有81个变量,113937条记录。这里主要对要使用的变量进行解释。
变量名 | 描述 |
---|---|
CreditGrade | 2009年7月1日前客户的信用等级 |
Term | 贷款期限 |
LoanStatus | 贷款状态 |
ProsperRating..Alpha. | 2009年7月1日后的信用等级 |
BorrowerState | 借款人所在州 |
BorrowerRate | 借款利率 |
Occupation | 借款人职业 |
EmploymentStatus | 就业状态 |
EmploymentStatusDuration | 就业状态持续时间 |
IsBorrowerHomeowner | 是否有房产 |
CreditScoreRangeLower | 由消费者信用评级机构提供的借款人信用评分范围下限值 |
CreditScoreRangeUpper | 由消费者信用评级机构提供的借款人信用评分范围上限值 |
DelinquenciesLast7Years | 信用资料提交时借款人过去7年违约次数,该指标在一定程度上可以体现借款标的发布者的信用状况 |
DebtToIncomeRatio | 借款人的债务收入比,债务收入比越高说明筹资者财务状况越差,还款能力较低.其向P2P平台借款时,投资者应要求有更高的回报. |
IncomeRange | 贷款人年收入范围 |
LoanOriginalAmount | 借款人在借款时已经向prosper借入的资金,如果没有历史记录则为0,显然,借入本金越多,其还款压力越大,但是这项指标大的话也可能说明该客户对prosper依赖性较强. |
数据预处理
不同时间的信用等级
因为2009年7月1日Prosper信用评级发生改变,数据集中有CreditGrade(2009年7月1日前客户的信用等级)和ProsperRating..Alpha.(2009年7月1日后的信用等级)两个变量。所以数据集需要分为2009年7月1日之前和2009年7月1日之后。
# 将2009年7月1日作为节点,把数据划分为两个阶段
prosperLoan$Phase[prosperLoan$LoanOriginationDate >= '2009-07-01'] <- 'After Jul.2009'
prosperLoan$Phase[prosperLoan$LoanOriginationDate < '2009-07-01'] <- 'Before Jul.2009'
消费信用评分转换
在数据集中有消费信用评分上限值和下限值两个,将这两个数值取均值做计算。
prosperLoan$CreditScore <- (prosperLoan$CreditScoreRangeLower +
prosperLoan$CreditScoreRangeUpper)/2
贷款状态数据划分
Prosper平台将贷款状态分为Cancelled(取消)、Chargedoff(冲销,坏账)、Completed(完成)、Current(还款中)、Defaulted(坏账)、FinalPaymentInProgress(最后还款中)、Past Due(逾期)。
本文按照投资人收益是否受损将数据分为两组,投资人收益受损包括Chargedoff、Defaulted和Past Due,投资人收益未受损包括Completed和FinalPaymentInProgress。Cancelled(取消)和Current(还款中)并不知道最终还款情况,不纳入分析。
# 对已取消或者正在进行的贷款不做分析
currentOrCancel <- (prosperLoan$LoanStatus == 'Cancelled') |
(prosperLoan$LoanStatus == 'Current')
prosperLoan <- prosperLoan[!currentOrCancel, ]
# 将Chargedoff、Defaulted和Past Due合并到Defaulted
pastDue <- c("Past Due (1-15 days)", "Past Due (16-30 days)",
"Past Due (31-60 days)", "Past Due (61-90 days)",
"Past Due (91-120 days)", "Past Due (>120 days)")
prosperLoan$LoanStatus[prosperLoan$LoanStatus %in% pastDue] <- 'Defaulted'
prosperLoan$LoanStatus[prosperLoan$LoanStatus == 'Chargedoff'] <- 'Defaulted'
# 将Completed和FinalPaymentInProgress合并到Completed
prosperLoan$LoanStatus[prosperLoan$LoanStatus == 'FinalPaymentInProgress'] <- 'Completed'
单变量绘图
贷款期限
贷款期限Prosper平台上的贷款主要以中长期为主,大部分为三年期限(36个月)。
贷款状态
贷款状态Defaulted(坏账)差不多是Completed(完成)的一半。Prosper平台的违约率在30%左右。
客户信用等级
客户信用分布2009年7月1日前评级为C最多,2009年7月1日之后为D级最多。2009年7月1日之后的评级分布更接近正态分布。
Prosper平台上借款人的消费信用评分大部分都在600以上,信誉良好。
借款人地域分布
地域分布从图可以看出在Prosper上贷款最多的是加州的人。
借款利率
利率分布图中两条虚线,第一条虚线标出95%的利率在0.08以上,第二条虚线标出95%的利率在0.33以下。利率主要分布在0.08-0.33。
借款人职业
职业分布大部分人在填职业时都选Other,说明很多人考虑到隐私或者其他原因而不明说职业。此数据可信度不高。
借款人过去七年违约情况
绝大部分人过去七年没有违约记录。极少部分人违约次数大于20。
借款人债务收入比
债务收入比分布平台绝大部分借款人的债务收入比在0.5以下。
借款人收入情况
收入分布比较多人收入在$25,000-49,999这个范围。
双变量绘图
消费信用评分与违约的关系
消费评分与违约的关系由箱线图可以看出,违约人群的消费信用评分要低于未违约人群的。由折线图可以看出,消费评分低的总笔数比较少,说明评分低难于借到钱,因为投资人违约风险大。
平台信用评级与违约的关系
2009年7月1日之前
Before Jul.2009由上图可以看出,信用评级越高,违约率越低。也就是说,信用评级越高的人,违约的可能性越低。
2009年7月1日之后
After Jul.2009评级越高,违约率越低。与2009年7月1日之前对比,少了NC级,且整体违约率比2009年7月1日前要低。
借款利率与违约的关系
从图可以明显看出,两种状态的贷款的利率偏峰不一样。未违约的比较多在利率低的地方;违约的比较多在利率高的地方。由此可见,违约的借款人利率要比未违约的高。
是否拥有房产与违约的关系
从上图看来,没有房产的人要比有房产的人稍多一点。是否有房产对违约率似乎并没有影响。
就业时长与违约的关系
从图可以看出,平台大部分借款人的工作时长要少于10年。最多的是工作一年左右。
过去7年违约次数与违约的关系
大部分人过去7年没有违约记录,说明平台借款人信誉良好。
债务收入比与违约的关系
从上图可以看出,大部分借款人的债务收入比小于0.3。在债务收入比低于0.6的借款人中,未违约笔数多于违约的。
借款人收入与违约的关系
从图可以看出,随着收入越来越高,违约率略微下降。
双变量分析
探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?
消费信用评分低的借款人违约的概率比较大,平台信用评级低的借款人违约的概率比较大,跟经验所得一致,信用越差,违约的概率越高。
有无房产对违约的概率并没有明显影响,这跟我一开始假设有房产的人违约可能性低于没有房产的人不一致。可能是因为房产为不动产,对借贷还贷这种流动性资金没有影响。
Prosper平台的借款人过去7年基本都没有违约记录,信誉良好。
借款人收入越高,违约的可能性越低。
你是否观察到主要特性与其他特性之间的有趣关系?
以2009年7月1日为节点,前后的评级发生了改变,2009年7月1日之后少了NC级,且整体违约率比2009年7月1日前要低
多变量绘图选择
借款利率、消费信用评分与违约的关系
从图可以看出,消费信用评分越高,借款利率越低,违约的可能性就越低。反之,消费信用评分越低,借款利率越高,违约的可能性越高。
借款利率、信用评级与违约的关系
从上面两图看来,趋势是一样的,信用评级越高,利率越低,违约率就越低;反之,信用评级越低,利率越高,违约率就越高。并且2009年7月1日之后的趋势更明显,违约率也要比之前低很多。说明2009年7月1日之后的评级系统更准确有效。
年收入、债务收入比、借款利率与违约的关系
从图可以看出,年收入越高,违约率越低;相同年收入下,债务收入比越低,利率越低,违约率越低。
定稿图与总结
绘图一
信用评级分布描述一
2009年7月1日前评级为C最多,2009年7月1日之后为D级最多。2009年7月1日之后的评级少了NC,且HR和AA的数量稍微比中间级别的少,分布更接近正态分布。
绘图二
信用评级与违约率描述二
随着信用评级的增加,违约率逐渐下降。2009年7月1日节点之后整体违约率较之前更低。
绘图三
借款利率、信用分与违约率描述三
消费信用评分越高,借款利率越低,违约的可能性就越低。反之,消费信用评分越低,借款利率越高,违约的可能性越高。