数据分析挖掘:影响信用卡申请因素是什么?银行如何做到快速审批的?
在之前曾经写过一篇叫做“数据分析:未来,你可能发生信用卡逾期吗?”,是分析什么样的人容易发生信用卡逾期行为呢?哪些因素会影响逾期行为的严重程度?
之前的分析还是比较粗浅的,那么接下来从银行的角度,从模型和算法的角度从更加深入和全面的角度探究信用卡违约风险和欺诈行为的识别,并且尝试分析判断信用卡拖欠行为,从而建立一快速识别风险的模型。
具体来说,就是通过对银行的客户信用记录、申请客户信息、拖欠历史记录、消费历史记录做分析,对不同信用程度的客户做归类,研究信用卡拖欠、信用卡欺诈等问题与客户的个人信息、使用信息,为银行提前识别、防控信用卡风险提供参考。
主要内容包括:客户信用等级影响因素、信用卡客户信用等级影响因素、基于消费的信用等级影响因素、信用卡欺诈判断模型、欺诈人口属性分析。
Ok,那就正式开始,这次就先讲信用卡申请成功影响因素。
下面是本次分析的流程图,总体来说,就是对客户信用记录和申请客户信息做合并、填充预处理,在通过过滤器筛选分析变量,最后通过决策树模型、SVM模型、逻辑回归算法做预测分析。
信用卡申请成功影响因素分析
通过对信用卡业务的初步了解,发现在客户申请信用卡的时候,主要考虑的因素如下表所示,那么本次的建模依据也是来自下表的维度。
在信用卡申请的审批过程中,需要区分某些潜在价值低而且信用风险高的客户,拒绝某些指标不达标的申请,这就需要建立模型,来区分这些达标和不达标的客户存在的特征,这部分使用到的是线性支持向量SVM和SVM模型做分析,并且使用逻辑回归计算各个变量直接的相关系数。
通过SVM和线性SVM算法分析,可以得到如下结果:
在线性SVM中,训练过程的准确率为88.58%,分类准确性为89.68%,总体来说还是比较理想的。通过线下SVM算法得到的变量重要性分别为:年收入、信贷情况、保险缴纳、车辆情况、教育程度、工作年限、户籍、年龄、职业、婚姻:
在SVM算法中,训练过程的准确率为78.14%,测试集的准确率为65.18%,其预测变量的先后重要性是保险缴纳、信贷情况、教育程度、职业类别、车辆情况、户籍、地理区域、性别、婚姻状况、居住类型。
通过对比可以知道,线性SVM的准确率是高于SVM的,因此可以使用线性SVM做用户信息的影响因素分析,其变量的重要性如图表所示。
为了将各项变量指标做定量分析,使用逻辑回归对各影响因素做分析,得到如下图的结果,可以看到结果与线下SVM大致相同:
下图是各项影响因素变量的分布情况,包括各个分类输入变量的数量以及所占总记录的比例:
模型结果的拟合情况如下图所示,其中Sig指标为0说明模型具有较高的显著性:
模型的因变量虚拟回归系数如下图所示,其中coxand snell指标为0.667,Nagelkerke参数为0.901,Mcfadden参数为0.809,说明逻辑回归模型指标比较好:
使用分析节点对结果做分析,其中训练集的准确率为94.32%,测试集的准确率为94.16%,说明逻辑回归具有较高的应用价值。
将回归结果以回归方程的形式量化,结果如下图,用户申请信用卡的时候将其提交的资料应用与回归方程中,可得到审批结果了:
逻辑回归方程结果(部分)最后,我的简书也写了80篇文章了,欢迎进入我的主页,看更多文章,总结了一下: