评分卡流程

2019-03-02  本文已影响0人  Tulip0322

一、了解业务,确定最终目的;

二、理解数据,从数据库中抽取数据/或者网上爬取数据;

        逻辑上理解数据,筛选x(y时间点之前的数据为x,时间点之后的数据不能选为x)

三、数据清洗:

        缺失值(列处理):占比超过80%(经验值,不一定),删除;

                                        占比30%~80%,分类变量;

                                        占比10%~30%,多重插补(预测或者互相填补)、分类;

                                        小于10%,固定值填补(中位数、均值、众数等)。

        注:以上数据(80%、30%、10%)为经验值,实际不一定完全按照以上数据进行缺失值处理。

        异常值:删除异常值所在的行;

                      替换为正常值(盖帽法)。

        错误值:替换成NA,当做缺失值处理。

        合表:

        长表:一个id对应一列(一个酒店多个订单,一个信用卡多个消费记录);

        宽表:一个id对应一行;

        合表:首先将长表变为宽表,再将所有相关的特征合并到一张表中。长表变宽表时,需进行分类汇总:

        • 连续变量:最小值、最大值、均值/中位数、方差/标准差、变异系数cv=方差/均值;

        • 分类变量:占比、信息熵/基尼;

        变量变换:

        偏态数据:一般是右偏数据,取log;

        变量分箱;

        衍生变量:

        • 字符型变量:提取某一特殊字符等方法;

        • 时间型变量:做时间差等方法;

四、生成y:

        定义好客户、坏客户。

        (评分卡对缺失值、异常值有包容度,默认把缺失值单独分为一类。)

五、分箱(连续变量变为分类变量,分类变量进行重分箱):

        连续变量分箱:

        无监督:自定义:有明确的业务需求时,按照业务需求分箱;

                       等宽:按照距离分类,每个等级中数据最大-最小值一致(好处:不改变数据分布);

                       等深:按照个数分类,每个等级中数据量一致;

                       信息:数据出现扎堆现象,使用聚类进行分箱;

         有监督:cart树分箱;

        分类变量重分箱:

        某个类或者某几个类的频数较少:合并类(一般情况下,无序变量合并为一类,有序变量合并到其他类);

        类别太多:无监督分箱:按业务分箱;

                          有监督分箱:cart树分箱;

        除以上两种情况,其他分类不需要重分箱。

六、WOE、IV值

        WOE(Weight of Evidence)值表示预测为1的概率大小,值越大、预测为1的概率越大;WOE值是放进logistic回归的值。WOE值可能为无穷值(0或者1的频数为0),方法:公式中的0改为0.5、或者,改对应频数,加一减一。WOE值,看趋势。

        IV(Information Value)值表示变量能提供的信息大小,表示变量的重要度。IV<0.02:对预测几乎无帮助;0.02<=IV<0.1:有一定帮助;0.1<=IV<0.3:对预测有较大帮助;IV>0.3:对预测有很大帮助;IV>0.5:慎重考虑x对y预测的有效性;IV>1:不能使用。

        注:可利用IV值筛选变量,一般评分卡中的变量为10个左右。也可用随机森林筛选变量(变量特别多,也可以先利用随机森林筛选变量,再进行分箱)。

七、优比odds

        odds = 同一类人中好客户的比率/坏客户的比率

八、回归

        ln\frac{P(y=1)}{1-P(y=1)}=\beta _{0}+\beta _{1}x_{1}   +......+\beta _{n}x_{n}

        ln(odds)=ln\frac{P(好)}{P(坏)}=ln\frac{P(y=1)}{P(y=0)}=ln\frac{P(y=1)}{1-P(y=1)} =\beta _{0}+  \beta _{1} x_{1}+......+ \beta _{n} x_{n}

九、分数

        odds越高,分数也应该越高,因此,ln(odds)与score成正比,即:

                                                score = offset + factor * ln(odds)

        需确定参数offset与factor,可以直接给定,但实际工作中一般不直接给定;通过参数pdo给定。pdo代表当odds变为原来的两倍时,score增加多少。即:

                                                score + pdo = offset + factor * ln(2 * odds)

        与上一公式相减,可得到:pdo = factor *ln2          即:factor = \frac{pdo}{ln2}

        指定一组初始的score与odds,带入即可算出offset值。至此,分数计算公式完成。

        每一个特征对应的分数:

        拆解score:

score = [\frac{offset}{n}+factor(\frac{\beta _{0} }{n}  + \beta _{1}x_{1}  )]+ [\frac{offset}{n}+factor(\frac{\beta _{0} }{n}  + \beta _{2}x_{2}  )]+......+ [\frac{offset}{n}+factor(\frac{\beta _{0} }{n}  + \beta _{n}x_{n}  )]

        对于每一个具体的特征值x_{i} 都会有对应的区间,对应的WOE值,对应的分数即为:

                                                        \frac{offset}{n}+factor (\frac{\beta _{0} }{n} +\beta _{i}WOE_{i})       

十、评估

        指定score阈值,可得到ROC曲线、KS曲线等相关指标。

上一篇 下一篇

猜你喜欢

热点阅读