从宏观上了解机器学习-模型评估与选择2

2020-11-06 本文已影响0人 3between7

性能度量

对模型泛化能力的评价标准就是性能度量，在预测任务中，要评估学习器的性能，就是要把学习器预测结果与真实标记进行比较。

回归任务最常用的性能度量是均方误差（公式略），本节下面主要介绍分类任务中常用的性能度量。

错误率与精度

错误率是分类错误的样本占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。

查准率、查全率与F1

WX20201105-141924.png

一般来说，查准率高时，查全率往往偏低，而查全率高时，查准率往往偏低。在很多情形下，我们可根据学习器的预测结果对样本进行排序，排在前面的是学习器认为最可能是正例的样本，按此顺序逐个将样本作为正例进行预测，则每次可以计算出当前的查全率和查准率，以查准率为纵轴、查全率为横轴作图就得到了“P-R曲线”，如下图所示：

WX20201105-142717.png

在进行比较时，若一个学习器的P-R曲线被另一个曲线包住，则可断言后者的性能优于前者。若曲线发生交叉时，比较合理的判据是比较P-R曲线下面积大小，但这个值不易估算，因此出现了平衡点（Break-Event Point，检查BEP），即 $P=R$ 时的取值。

但BEP还是过于简化了些，更常用的是F1度量：

$F1=\frac{2*P*R}{P+R}=\frac{2*TP}{ m+TP-TN}$

在一些应用中，对查准率和查全率的重视程度不同，此时可用 $F1$ 的一般形式—— $F_\beta$ ，它定义为：

$F_\beta = \frac {(1+\beta^2) * P * R}{(\beta^2*P)+R}$

当 $\beta=1$ 时退化为标准的 $F1$ ; $\beta >1$ 时查全率有更大的影响， $\beta <1$ 时查准率有更大的影响。

ROC和AUC

很多学习器视为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类与之进行比较，若大于阈值则分为正类，否则为反类。ROC全称是“受试者工作特征曲线”，与P-R曲线类似，它是将学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例预测，每次计算出两个重要量的值，分别以他们为横纵轴作图就得到了ROC曲线，其中，其纵轴是“真正例率（TPR）”，横轴是“假正例率（FPR）”，即：

$TPR=\frac{TP}{TP+FN}\\FPR=\frac{FP}{TN+FP}$

如下图所示：

WX20201105-145223.png

同样的，若一个学习器的ROC曲线被另一个完全包住，则可断言后者的性能优于前者，若发生交叉，则较为合理的判据是比较ROC曲线下的面积，即AUC（Area Under ROC Curve）

代价敏感错误率和代价曲线

为权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”，在非均等代价下，我们所希望的是最小化“总体代价”，且ROC曲线不能直接反映出学习器的期望总体代价，而代价曲线可以，如下图所示：

WX20201105-150020.png

emmmmmm，公式略，想看的可以去翻书.......