数据分析:未来,你可能发生信用卡逾期吗?
信用无价,无论是在现在还是在未来!
进入移动互联金融时代,持卡人的消费、还款等使用行为已经成为个人征信的重要依据之一。逾期还款会给持卡人留下不良信用记录,会对持卡人今后的贷款等行为的顺利进行造成不利影响。那么,什么样的人容易发生信用卡逾期行为呢?哪些因素会影响逾期行为的严重程度?本案例收集了信用卡逾期行为的相关数据,尝试建立统计模型探究持卡人逾期行为的影响因素,并对逾期状态开展预测。
一、数据来源
本案的数据来自某个银行的数据,这里需要事先说明的是,并不能对数据的真实性负责,我这里着重要写的是分析的方法和思维,从这个角度来说,数据的真实性并不在考虑范围内。
总共有9000条数据,数据维度有逾期状态、性别、信用卡使用率、信用卡额度、住房贷款、历史逾期行为、开户行为,这里把逾期状态作为因变量,而把剩余的6个维度作为自变量,具体如下图:
主要的分析思路是,先建立是否逾期的逻辑回归模型,再对逾期的严重程度建立定序回归模型,
二、逾期状态分析
下图是根据定序做的逾期状况分析,可以看到频数最高的是没有逾期分析,其次是逾期31-60天的,当然可以看出,逾期占总体数据的61.44%,信用卡逾期情况普遍。
三、基本的描述性分析
在这部分主要探究的是单个因变量与自变量之间的关系,考虑的是例如性别、有无住房贷款以及有无历史逾期行为与当前逾期情况之间的动态关系。
1、性别与舆情情况分析
2、有无房贷与舆情情况分析
3、有无历史逾期情况与当前逾期情况分析
4、有无开户与逾期情况分析
通过上面的分析,在整体人群中,男性居多但是男女性别差异在与是否逾期之间并无明显的差别;在整体人群中,无住房贷款占比更大,但是有无住房贷款与是否逾期行为并无明显差异;在整体人群中,有开户行为的居多,但是这与是否逾期之间并无明显的关系。
但是历史逾期行为与当前是否逾期之间的差异是非常明显的,也就是说有过逾期行为的人群更容易发生再次逾期的情况;
样本均值图表 样本均值图标在信用卡使用率方面,从平均水平来看,没有逾期行为的人群,信用卡使用率比有逾期的行为的人群低,而有逾期行为的人的信用卡使用率并无明显的关系;
在信用卡额度方面,从平均水平来看,信用卡额度较低的人群逾期的可能性会更高。
四、回归分析:
通过以上分析发现,在信用卡使用率、额度、和历史逾期行为都有可能影响发生逾期行为。由于影响因素过多,因此,如果为了使得各个因素的影响情况更加明显和值观,需要先建立0-1回归模型,来预测是否有逾期行为发生,再通过定序回归,分析逾期行为的严重性。
1、0-1回归分析
在逻辑回归中,如果回归系数是正值,就代表相应自变量的增加更可能带来更高的逾期风险,如果回归系数是负值,则带来更小的逾期风险。
因此如上图所示,通过p值对比,除了开户行为之外,其他的自变量都对是否逾期行为有显著的影响,在控制其他因素不变的情况下:男性逾期风险更高,女性则相反;信用卡使用越频发,逾期的可能性就更高;信用卡额度越低,就越有可能发生逾期;无房贷人群,更容易发生信用卡逾期;有历史逾期行为的人,发生再次逾期的可能性更高。
2、定序回归模型
通过之前的数据观测发现,信用卡逾期90天以上的数据样本过低,这样会对总体的分析结果产生不利的影响,并不能有效观测与各个自变量之间的关系,因此就把逾期90天以上的样本归到60-90天之间,所以这样就只有3个因变量:1表示的是逾期1-30天,2表示的是逾期21-60天,3表示的是逾期61-90天。
对这3个因变量做定序回归分析,探究因变量与自变量之间的关系,如下图:
这就得到了和之前0-1回归中类似的结果:在控制其他变量不变的情况下,男性更有可能发生舆情,信用卡使用越频繁越可能发生逾期,信用卡额度越低越可能发生逾期,无房贷人群更可能发生逾期,有历史逾期的人群更可能发生逾期;