工作

搭建金融信贷风控中的机器学习模型-(5)逻辑回归模型与尺度化

2019-09-28  本文已影响0人  GQRstar

        在分类场景中,逻辑回归模型是常用的算法。它具有结构简单、可解释性强、概率输出软分类等特点。

1.逻辑回归模型

        在分类模型中,目标变量是离散、无序型的变量。例如违约与非违约。
伯努利概型
        某个事件有“发生”与“不发生”两种互斥的状态。假设该事件发生的概率为p,不发生的概率为1-p,则有:Pr(y=1)=pPr(y=0)=1-p,合并后有:Pr(Y=y)=p^y*(1-p)^{(1-y)},在违约预测场景中,单个个体的违约事件可以看成伯努利概型:pr(y_i)=p_{i}^{y_i}*(1-p_{i})^{1-y_i},参数p_i就是需要预测的目标概率,概率的取值范围为0~1,线性回归并不适用,逻辑回归使用的sigmoid函数作为目标函数:f(x)=\frac{1}{1+exp(-x)}
f(x)的特点:

2.构建模型

进入模型的变量需要满足以下条件:
1.变量不存在较强的线性相关性和多重共线性:单变量分析与多变量分析可以有一定约束
2.变量具有显著性:变量p值足够小,例如低于0.1
3.变量具有合理的业务含义
模型截距项含义

3.尺度化

        得到符合要求的模型后,通常将概率转化为分数,分数的单调性与概率相反,即分数越高,违约概率越小,信用资质越好。尺度化的公式为:
score=Base Point+\frac{PDO}{ln(2)}(-y),其中y=log(\frac{p}{1-p})
PDO:point to double odds
PDO的作用:
假设当前的好坏比为\frac{1-p}{p}=e^{-y},对应的分数为score1,当好坏比上升一倍变为2*\frac{1-p}{p}=2*e^{-y}=e^{ln2-y}=e^{-y^{'}},即y^{'}=y-ln2,此时的分数为score2=Base Point+\frac{PDO}{ln2}(-y^{'})=Base Point+\frac{PDO}{ln2}(ln2-y)=score1+PDO,因此PDO的含义为好坏比上升一倍时,分数上升PDO个单位。Base Point取值满足所有评分的取值为正。

(如有不同见解,望不吝赐教!!)

上一篇 下一篇

猜你喜欢

热点阅读