评分卡知识查漏补缺
制作评分卡时候,做变量相关性应该在哪一个步骤?
做变量相关性分析,在WOE编码过后,带入模型之前合适。在变量WOE编码之后,因为变量可能在WOE编码前存在相关性,不过编码过后就不存在相关性了;当然有一些变量在WOE编码前不相关性,但是WOE编码后相关了。
IV值是越高越好吗?
一帮来说,变量IV小于0.02就不要带入模型了,但是IV>1.2过高,这个变量可能存在问题
缺失值在什么比例可以直接剔除?
缺失值一般在千分之一、万分之一可以直接剔除,否则可以使用均值填补,中位数等,也可以用随机森林,听说smote也可以做,没用过smote来填充过
评分卡变量挑选使用什么方法好?
评分卡模型IV方法挑选变量最佳,变量挑选方法有IV、LASSO,只用一种即可,不要混用。
评分卡样本好坏样本最大比例是多少才不失衡?
一般好坏样本不要超过20:1
分箱时要注意的
分箱里面不能全是好客户或者全是坏客户,否则不能计算WOE
连续型变量可直接分箱
类别型变量:
(a)当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱
(b)当取值较少时:
(b1)如果每种类别同时包含好坏样本,无需分箱
(b2)如果有类别只包含好坏样本的一种,需要合并
卡方分箱优化建议
当变量取值大于100时候,我们可以先进行一个粗糙的等频分箱,加快程序运行速度
评分卡模型在什么阶段会变量挑选呢?
WOE后编码,单变量IV值过低可以剔除(IV值自己可以定,一般0.02)
WOE后编码,变量与变量之间的关联性,使用皮尔逊系数来检验(可以定一个皮尔逊值,大于这个值,两个变量选择IV高的那个;IV无太大差别,变量数值比较多的,这样分数更有层次性)
WOE后编码,变量的多重共线性,用VIF指标来衡量(一般VIF小于10则没有问题)
逻辑回归后,变量的P值不显著,也要剔除(注意,每剔除一次要重新进行逻辑回归,重新算剩下变量对应的P值和系数)
假如训练集分箱后,遇到的测试集的值不存在任何一个分箱,怎么处理?
依照该变量分箱最差情况考虑
为什么申请评分卡一定要使用WOE编码?
WOE编码能反映出组和组之间的差距和我们分箱初衷一样,使用箱与箱之间差距大,箱内差距小