二分类模型指标

2019-03-03  本文已影响0人  Tulip0322

        分类算法常用指标:准确率(Accuracy);但当样本中的分类极度不均匀时,分类准确率并不能说明问题。(例如,100个观测样本中有95个0,5个1,全部预测为0的准确率有95%,已经很高了)

        解决样本分布不均匀的办法:

        重新抽样:过抽样/欠抽样

        使用提升算法,Adabost

        更改阈值


混淆矩阵

                                                            P = TP+FNN=FP+TN

准确率(Accuracy):ACC=\frac{TP+TN}{P+N}

灵敏度/召回率(Sensitivity/Recall):TPR=\frac{TP}{P}

注:TPR体现分类模型对正样本的识别能力,TPR越高,表示模型对正样本的识别能力越强,即得到尽可能多的正样本。

特异度(Specificity):TNR=\frac{TN}{N}

注:1-TNR=\frac{FP}{N} =FPR(假阳性率)

精确度(Precision):PPV=\frac{TP}{TP+FP}

注:PPV越高,找到的正样本相对越多,得到尽可能纯的正样本;

       TPR与PPV是此消彼长的关系。


假设1是违约客户,0是不违约客户:

情况1 情况2

情况1:TPR=\frac{80}{80+20} =0.8PPV=\frac{80}{80+120} =0.4

情况2:TPR=\frac{50}{50+50}=0.5PPV=\frac{50}{50+30} =0.625

情况1中,TPR高,找到的违约客户多,坏账减少,但损失一部分好客户,带来一定的利润损失。属于稳健性策略,宁可损失一些客户,也要降低坏账。

情况2中,PPV高,坏账高,但损失的好客户少,利润损失少。属于激进型策略,宁可坏账高一些,也要留住客户。


F_{1} 统计量:\frac{2}{F_{1} } =\frac{1}{TPR} +\frac{1}{PPV} ,即F_{1} 是tpr与ppv的调和平均数。只有当\frac{1}{TPR} =\frac{1}{PPV} 时,F_{1} 最大。

F_{\beta } 统计量:\frac{\beta ^2 +1}{F_{\beta } } =\frac{\beta ^2 }{TPR} +\frac{1}{PPV} ,当\frac{\beta ^2 }{TPR} =\frac{1}{PPV} 时,F_{\beta } 最大。

注:F_{1} F_{\beta } 都是越大越好。常用的是F_{2} F_{0.5}

ROC曲线

x轴为FPR,y轴为TPR;

选择不同的阈值会产生不同的混淆矩阵,进而可算出对应的FPR、TPR。

ISO精度线

准确率acc、召回率tpr、假阳性率fpr三者关系:

A:所有样本个数;P:正例的个数;N:负例的个数;A=N+P;

pos=P/A:正例的占比;neg=N/A:负例的占比;

acc=\frac{TP+TN}{A} =\frac{TP}{A}+\frac{TN}{A}=\frac{TP}{P}*\frac{P}{A}+\frac{N-FP}{A}=tpr*pos+neg-\frac{FP}{N}*\frac{N}{A}=tpr*pos+neg-fpr*neg

即:tpr=\frac{acc-neg}{pos}+\frac{neg}{pos}  *fpr

这条斜线就是ISO精度线,截距随着acc改变,斜率不变为N/P,即负例比正例。

最优acc值:截距最大时,对应acc值最大。

                                                tpr=\frac{acc-neg}{pos}+\frac{neg}{pos}  *fpr   

                                                tpr = 1- fpr

两式联合求解,可得到:tpr = \frac{acc}{pos+neg} =acc

即:找到与ROC曲线相切的精度线,切点为最优阈值点,精度线与反斜线的交点为最优精度。

例如:

AUC面积

ROC曲线下的面积

AUC=1:一个能完美区分所有正负样例的分类器

AUC=0.5:随机分类

AUC范围:[0,1]

KS曲线

预测为正例的比例:rpp=\frac{TP+FP}{P+N}

以rpp(或阈值)为横坐标,tpr、fpr分别为纵坐标划线,得到的曲线为KS曲线。

KS值为max(tpr-fpr)

上一篇 下一篇

猜你喜欢

热点阅读