【机器学习】模型评估:分类器——准确、精确、召回
2021-10-28 本文已影响0人
宅家学算法
1.准确率
准确率:分类正确的样本占总样本的个数比例。准确率受样本影响较大,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要的因素。

当样本中B样本占比90%,那么在分类器将所有样本都识别为B,其准确率依然可以达到90%。分类器对B样本的准确率高并不代表对其他类别样本的准确率高。可以使用平均准确率(每个类别下的样本准确率的算数平均)评估模型。
2.精确率和召回率
精确率:分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
召回率:分类正确的正样本个数占真正的正样本个数的比例。
精确率和召回率一般会选择绘制P-R曲线来进行综合评估,P-R曲线的横轴是召回率,纵轴是精确率。
一般在理解精确率和召回率时都是应用于二分类问题,在《百面机器学习》一书中第一次看到应用于排序模型。在应用于排序问题中,最直接的问题就是“哪些是正样本?哪些是负样本?”。
通常选用TopN返回结果的精确率和召回率来衡量排序模型的性能,即认为模型返回的TopN的结果就是模型判定的正样本,然后计算前N个位置上的精确率和召回率。模型反馈精确率前5的结果非常好,则说明排序模型Top5的返回值质量很高。
对于一个样本来说,P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本。由下图可见,当召回率接近于0时,模型A的精确率为0.9,模型B的精确率为1,说明模型B得分前几位的样本全部时真正的正样本,而模型A即使得分最高的几个样本也存在预测错误的情况。并缺,随着召回率的增加,精确率整体呈下降趋势。但是,当召回率为1时,模型A的精确率反而超过了模型B。这充分说明,只用某个点对应的精确率和召回率是不能全面地衡量模型的性能,只有通过P-R曲线的整体表现才能够对模型进行全面的评估。
P-R曲线
除此之外,F1 Score和ROC曲线也能综合地反映一个排序模型的性能。F1 Score是精确率和召回率的调和平均值,公式为
F1 Score