WoE 和 IV

2018-12-29  本文已影响0人  天之見證

1. 如何计算WoE

WoE=\ln \frac{\text{% of non-events}}{\text{% of events}}

具体计算示例结果如下:

Weight of Evidence Calculation

2. WoE的使用

将一个连续的独立变量转化成基于非独立变量分布的相似度的组, 例如 events 和 non-events 的数量

1. 对于连续的独立变量

  1. 对其进行分bin
  2. 对每个bin计算WoE
  3. 对WoE相同的bin进行合并,并将其用WoE值替代掉

2. 对于类别的独立变量

  1. 对每个类别计算WoE
  2. 对WoE相同的类别进行合并,并将其用WoE值替代掉

之所以合并具有类似WoE的bin/类别 , 是因为这样的bin/类别几乎拥有相同的 events/non-events比例, 即这样的bin/类别表现上是相同的

3. WoE的限制与应对

限制 应对
每个bin/类别下至少有 5\% 的样本 一般取10~20个bin,bin越少越平滑,噪声也少
每个bin/类别 events/non-events都不能为0 \frac{\text{% of non-events}+0.5}{\text{% of events}+0.5}
每个bin/类别都必须不同,相似的应该合并
WoE应该是单调的,不管是增加bin,还是减少bin
对于缺失值需要另外分bin

4. IV

IV=\sum(\text{% of events - % of non-events}) * WoE

主要用来选择对预测模型重要的特征

IV值与其对应解释:

Information Value Variable Predictiveness
\lt 0.02 Not useful for prediction
[0.02, 0.1) Weak predictive Power
[0.1, 0.3) Medium predictive Power
[0.3, 0.5) Strong predictive Power
\ge 0.5 Suspicious Predictive Power
上一篇 下一篇

猜你喜欢

热点阅读