信用卡评分模型分析-‘好/坏’客户的概率
本文主要是通过选取信用卡客户的历史数据信息特征之间的关联,建立可以评价客户‘好/坏’的概率模型,进而对新增客户的‘品质‘’有个综合评估,最终给一个概率值,概率值越大代表违约风险越高。
本文结构分为以下几块内容:数据准备及数据预处理、变量选择、模型构建、模型验证、模型评估。
1.数据准备及数据预处理。
本文数据来源kaggle竞赛Give Me Some Credit。其中训练数据共计15万条。
字段名和其含义称分别是:
![](https://img.haomeiwen.com/i35860/6a2bf19ab4e21e26.png)
1.1空值处理
通过pandas.describe()对原数据有个大致了解后发现,MonthlyIncome(月收入)及NumberOfDependents(家属数量)两个变量出现了缺失值。
由于MonthlyIncome缺失值达到29731条数据,占比较大,因此不能直接将缺失值删除,选择随机森林法填充。
NumberOfDependents的缺失较少,对数据影响不大,因此直接删除。
![](https://img.haomeiwen.com/i35860/ffe1b9a17c62e7a8.png)
![](https://img.haomeiwen.com/i35860/a702f9996f121f2c.png)
随机森林法填充:
![](https://img.haomeiwen.com/i35860/521732ebd88c981b.png)
使用dropna()函数删除空值,使用drop_duplicates()删除重复值,保留第一个。
![](https://img.haomeiwen.com/i35860/f7fef6d9472e5c33.png)
1.2异常值删除
在本文中,采用各个单变量离群值检测来判断异常值,采用箱线图。
![](https://img.haomeiwen.com/i35860/facc366c0006e852.png)
比如年龄超过100岁以及小于0岁的直接删除;可用额度比值和负债比率大于1的直接删除;所有逾期日期段的次数大于10的直接删除,箱线图上显示有98次和97次两个。
![](https://img.haomeiwen.com/i35860/d558b99c20ae9862.png)
![](https://img.haomeiwen.com/i35860/1446a6980d46ab4c.png)
![](https://img.haomeiwen.com/i35860/bffb7bdb018b3483.png)
![](https://img.haomeiwen.com/i35860/87f060a4a4f91e87.png)
2.变量分析。
2.1 单独分析‘好/坏’客户占比分布,发现坏客户占比7.1%。
![](https://img.haomeiwen.com/i35860/414791d77a69099c.png)
2.2分析月收入和违约客户数量之间的关系。
![](https://img.haomeiwen.com/i35860/fcf08d5b6ceb74c7.png)
2.3家庭数量和违约客户数量之间的关系。
![](https://img.haomeiwen.com/i35860/2e6bb1332c7e1876.png)
2.4年龄和违约客户数量之间的关系。
![](https://img.haomeiwen.com/i35860/d78739600ef33c5e.png)
2.5多变量分析。使用corr()函数分析多个变量之间的关系。
![](https://img.haomeiwen.com/i35860/69ac77d2707c224a.png)
3.0主特征筛选和构建模型。
3.1本文采用IV值大小来筛选模型变量。
我们定义IV值低于0.2的特征为预测能力较弱或无关特征,因此将DebtRatio等五个变量删除。
![](https://img.haomeiwen.com/i35860/446a356b5df0c663.png)
3.2特征分箱。根据IV值计算得出,五个特征变量。
![](https://img.haomeiwen.com/i35860/932d45170bb97f69.png)
3.3将筛选后的特征变量进行WOE转换,目的是减少逻辑回归的自变量处理量。
![](https://img.haomeiwen.com/i35860/db726c58c9ea2a7a.png)
3.4逻辑回归预测客户好坏的概率值。
![](https://img.haomeiwen.com/i35860/fe6ad3b7bf488ce0.png)
3.4模型检验。
测试成绩0.933。
![](https://img.haomeiwen.com/i35860/66d99b195167446b.png)