机器学习中的评价指标

2020-06-24 本文已影响0人 dao刀dao刀

姓名:张新影

学号:19021210945

转载自:https://www.jianshu.com/p/ce493d8c9cb8有删减

【嵌牛导读】不同的机器学习任务需要不同的性能评价指标来评价，文中介绍了常见的评价指标。

【嵌牛鼻子】机器学习评价指标

【嵌牛提问】机器学习的评价指标有哪些？

【嵌牛正文】

不同的机器学习任务有着不同的性能评价指标。例如，分类问题，可以使用准确率 (Accuracy)、对数损失函数 (log-loss)、AUC等评价方法。实数序列数据预测问题，可以使用平方根误差 (root mean square error， RMSE) 等指标；又如在搜索引擎中进行与查询相关的项目排序中，可以使用精确率-召回率 (precision-recall)。本文将介绍一些在机器学习中常见的评价指标。

混淆矩阵

混淆矩阵是对分类的结果进行详细描述的一个表，无论是分类正确还是错误，并且对不同的类别进行了区分，对于二分类则是一个2x2的矩阵，对于n分类则是nxn的矩阵。对于二分类，第一行是真实类别为“Positive”的记录个数（样本个数），第二行则是真实类别为“Negative”的记录个数，第一列是预测值为“Positive”的记录个数，第二列则是预测值为“Negative”的记录个数。

准确率（Accuracy）

分类正确的样本个数占所有样本个数的比例：

准确率看起来非常简单。然而，准确率评价指标没有对不同类别进行区分，即其平等对待每个类别。但是这种评价有时是不够的，比如有时要看类别0与类别1下分类错误的各自个数，因为不同类别下分类错误的代价不同，即对不同类别的偏向不同。另一个原因是，可能数据分布不平衡，即有的类别下的样本过多，有的类别下的样本个数过少，两类个数相差较大。这样，样本占大部分的类别主导了准确率的计算，为了解决这个问题，对准确率进行改进，得到平均准确率。

精确率（Precision）

分类正确的正样本个数占分类起所有的正样本个数的比例：

召回率（Recall）

分类正确的正样本个数占正样本个数的比例：

F1-Score

精确率和召回率的调和平均值，它的值更接近于 Precision 和 Recall 中较小的值：

对数损失函数（log_loss）

在分类输出中，若输出不再是0、1，而是实数值，即属于每个类别的概率，那么可以使用 Log-loss 对分类结果进行评价。这个输出概率表示该记录所属的其对应的类别的置信度。比如如果样本本属于类别 0，但是分类器则输出其属于类别1的概率为 0.51，那么这种情况认为分类器出错了。该概率接近了分类器的分类的边界概率 0.5。Log-loss是一个软的分类准确率度量方法，使用概率来表示其所属的类别的置信度。Log-loss具体的数学表达式：

其中，yi 是指第 i 个样本所属的真实类别 0 或者 1，pi 表示第 i 个样本属于类别 1的概率，这样上式中的两个部分对于每个样本只会选择其一，因为有一个一定为 0，当预测与实际类别完全匹配时，则两个部分都是 0，其中假定 0log0=0。

AUC (Area under the Curve (Receiver Operating Characteristic, ROC))

AUC的全称是Area under the Curve，即曲线下的面积，这条曲线也是ROC曲线。ROC 曲线描述分类器的True Positive Rate（TPR，分类器分类正确的正样本个数占总正样本个数的比例）与False Positive Rate（FPR，分类器分类错误的负样本个数占总负样本个数的比例）之间的变化关系。

如上图，ROC 曲线描述 FPR 不断变化时，TPR 的值，即 FPR 与 TPR 之间的关系曲线。显而易见，最好的分类器便是 FPR＝0%，TPR＝100%，但是一般在实践中一个分类器很难会有这么好的效果，即一般 TPR 不等于 1，FPR 不等于 0 的。当使用 ROC 曲线对分类器进行评价时，如果对多个分类器进行比较时，如果直接使用 ROC 曲线很难去比较，只能通过将 ROC 分别画出来，然后进行肉眼比较，那么这种方法是非常不便的，因此我们需要一种定量的指标去比较，这个指标便是 AUC 了，即 ROC 曲线下的面积，面积越大，分类器的效果越好，AUC 的值介于 0.5 到 1.0 之间。

RMSE (平方根误差)

回归模型中最常用的评价模型便是 RMSE（root mean square error，平方根误差），其又被称为 RMSD（root mean square deviation），其定义如下：

其中，yi 是第 i 个样本的真实值，yi^ 是第 i 个样本的预测值，n 是样本的个数。该评价指标使用的便是欧式距离。RMSE 虽然广为使用，但是其存在一些缺点，因为它是使用平均误差，而平均值对异常点（outliers）较敏感，如果回归器对某个点的回归值很不理性，那么它的误差则较大，从而会对RMSE的值有较大影响，即平均值是非鲁棒的。

机器学习中的评价指标

猜你喜欢

热点阅读