如何衡量变量重要性？

2018-06-02 本文已影响26人 weston_Xiang

为了挑出优质变量，我们可能会考虑：

变量的预测能力
变量之间的相关性
变量的简单性（容易生成和使用）
变量的健壮性（适用于各种情形）
变量在业务上的可解释性（被挑战时可以解释的通）

其中，预测能力是最主要的影响因素。

如何衡量变量的预测能力呢，可以采用通用方法：计算IV、信息增益或基尼系数等等；也可以为特定模型设计特定的计算方法，本文针对线性模型和随机森林模型，解释了变量重要性是如何计算的。

一、通用计算方法

Information Value(IV)，信息值，可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等，它们的原理类似。

计算这类指标时，并不需要考虑具体使用的模型算法是什么。

IV的原理是什么？如何计算？

①首先，只有类别变量才能计算IV，因此，连续变量需要先分箱（分区间）

②对于类别变量，需要计算该变量中每一个类别的WOE(weight of evidence)

计算公式为：

woe计算

WOE表示的含义即是"当前分组中响应客户占所有响应客户的比例"和"当前分组中没有响应的客户占所有没有响应客户的比例"的差异。

③计算变量中每个类别对应的IV

计算公式为：

类别 i 的IV值

④计算整个变量的IV
很简单，加总所有类别的IV值。

计算公式为：

变量的IV值

python实现IV计算

Python中没有现成的功能模块，本人写了一个函数，有兴趣可以参考一下：

def woe_iv(data, feature, label):
        '''
        :param data: DataFrame,
                data files contain feature and label
        :param feature: String
                a predict variable
        :param label: String
                the object variable
        :return: information value of given feature
        '''
        data = data[[feature, label]]
        cato_num = data.groupby(feature).count().reset_index()
        default_num = data.groupby(feature).sum().reset_index()
        all_number = data.shape[0]
        default_number = data[label].sum()
        normal_number = all_number - default_number
        iv = 0
        for i in np.arange(cato_num.shape[0]):
                p_default = default_num[label][i]/default_number
                p_normal = (cato_num[label][i] - default_num[label][i])/normal_number
                if p_default == 0 or p_normal == 0:
                        print('woe_{}_{} is not avalible'.format(feature, cato_num[feature][i]))
                else:
                        locals()['woe_{}'.format(cato_num[feature][i])] = \
                                np.log(p_normal / p_default)
                        print('woe_{}: {}'.format(cato_num[feature][i],
                                                   locals()['woe_{}'.format(cato_num[feature][i])]))
                        iv = iv + (p_normal - p_default) * locals()['woe_{}'.format(cato_num[feature][i])]
        print('iv of {}: '.format(feature), iv)
        return iv

测试一波~

import numpy as np
# 生成data，包括x1,x2,x3三个自变量
x1 = np.random.randint(-3, 3, (1000))
x2 = 1.5*np.random.randint(-3, 3, (1000))
x3 = 0.5*np.random.randint(-3, 3, (1000))
y = (1 + x1 + x2 + x3 + np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])

data = pd.DataFrame(X, columns=['x1', 'x2', 'x3'])
data['y'] = y

woe_iv(data, 'x1', 'y')

woe_iv函数能输出变量的每个类别的woe值，并返回iv值。

二、在模型中计算变量重要性

1.线性模型及逻辑回归

线性模型及逻辑回归中，给定一个变量，衡量它的影响力的最简单的量化方法就是，将变量的系数乘以该变量的标准差。

import numpy as np    
from sklearn.linear_model import LogisticRegression

x1 = np.random.randn(100)
x2 = 4*np.random.randn(100)
x3 = 0.5*np.random.randn(100)
y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])

m = LogisticRegression()
m.fit(X, y)

# 逻辑回归估计的参数都接近1:
print(m.coef_)

# 以下输出说明了X2有更强的预测能力，符合预期
print(np.std(X, 0)*m.coef_)

乘以变量标准差是为了消除变量量纲带来的影响。

另一种更常见的做法是，在建模之前将变量标准化，这种情况下，变量的系数即可以直接作为变量重要性的判断指标。