信息值IV(infromation value)(转)

2020-04-07  本文已影响0人  不爱吃饭的小孩怎么办

转自 https://www.jianshu.com/p/c527dee9bb1f

<meta charset="utf-8">

<article class="_2rhmJa">

1. 变量分析的步骤

  1. 首先从已有的数据中挑选或组合可能影响风险的变量,组成变量群(长清单)
  2. 检查变量之间的共线性,若变量之间存在高度相关性,之后依据预测能力及稳定性择一保留
  3. 进行单因子分析,检查各变量的预测强度(以变量-年收入为例)
    • 分组:按照年收入高低分组
    • 分组原则:
      • 组间差异大,组内差异小
      • 分组占率不宜低于5%
      • 各组必须同时拥有好坏客户
image

2. WOE (weight of evidence):迹象权数

  1. 计算公式: ln(正常件占比/违约件占比)
  2. 违约件占比 > 正常件占比 ,WOE为负数
  3. 绝对值越高,表明该组别好坏客户的区隔程度越高
  4. 各组之间的WOE值差距应尽可能拉开并呈现由低至高的合理趋势

3. IV (information value):信息值

  1. IV计算公式

    image
  2. n 表示数据分析的组数

  3. 信息值可用来表示变量的预测能力

image
1.提高信息值的方法: 调整合并WOE相近的组别,最后得到的分组结果称为粗分类
2\. 待所有长清单的变量信息值计算完成后,即可从中挑选变量
- 优先排除高度相关、趋势异常、解释不易及容易偏移者
- 经过筛选后的变量集合称为短清单,这个清单即模型的候选变量
- 建立模型时可以利用顺向进入法,反向排除法及逐步回归法等方法选出效果最佳的变量组合

</article>

上一篇 下一篇

猜你喜欢

热点阅读