大数据,机器学习,人工智能

信贷风控的基础:评分卡,iv,woe,vif

2019-12-19  本文已影响0人  Wayne维基

流程

image.png

数据分箱 Bining

就是数据分组,数据预处理技术,如果是学图像算法的工程师,图像的分割就是一种数据分箱技术。图像模糊技术,把相邻像素合并为1个像素数值,也是分箱算法的应用。

常用的分箱算法:(todo)

WOE 和 IV

WOE的计算(WOE转换)

WOE的计算是IV计算的基础
WOE的全称是“Weight of Evidence”,即证据权重。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)

分组后,对于第i组



pyi: 是这个组中(违约客户)占(总体违约客户)的比例,或者是 目标为 1 的用户占比
pni:是这个组中(未违约客户)占(总体未违约客户)的比例,或者是 目标为 0 的用户占比.

IV的计算

一个特征变量的IV如下:


Vi是在每个分箱中的IV值,计算方式如下:


image.png

IV的改进

逻辑回归

(todo)

相关系数

协方差

image.png

Pearson相关系数 (Pearson CorrelationCoefficient)

VIF 方差膨胀系数(variance inflation factor)

复相关系数

变量x1和变量的估计值 x11(打不来这个符号,自己领会一下)之间的相关系数。
举例,假如有3个变量x1,x2,x3


image.png

SSR/SST计算方法

image.png
image.png

SST、SSR、SSE分别指的是总平方和、回归平方和和残差平方和。其中SST为因变量和因变量均值之差的平方和,SSR为自变量拟合结果和因变量均值之差的平方和,SSE为因变量和自变量拟合结果之差的平方和。


image.png

红色线框为求和后的最后结果


image.png
上一篇 下一篇

猜你喜欢

热点阅读