视觉任务中常见的评价指标(一)

2019-06-02  本文已影响0人  Frank_Zhu117

1 分类任务

(注:以下仅讨论二分类的情况)
针对预测值和实际值之间的关系,可以将样本的预测值分成:

  1. 真正例(True Positive,TP):预测为1,实际为1的样本
  2. 真负例(True Negative,TN):预测为0,实际为0的样本
  3. 假正例(False Positive,FP):预测为1,实际为0的样本
  4. 假负例(False Negative,FN):预测为0,实际为1的样本

因此我们可以得到一个混淆矩阵:


混淆矩阵

1.1 单一指标

在单一指标中,最常用的就是准确率和召回率。

precision=\frac{TP}{TP+FP}

反应了真正例的样本(预测值为1的且预测对的样本)在所有预测为1的样本中的比例。

recall=\frac{TP}{TP+FN}

反应了真正例的样本在所有实际值为1的样本中的比,该指标仅关心有多少实际值为1的样本被预测出来。

此外,还有真正例率和负正利率,在接下来要讨论的ROC曲线中用到。

代表分类器预测的正类中实际正实例占所有正实例的比例。

通常来说,单一指标只能描述分类器的部分能力。讨论一个极端情况:
如果我们将分类器的阈值设置的很低(假设为0),所有样本都分为1,则recall=100%,而precision可能很低;
如果我们将分类器的阈值设置的很高(假设为0.9),则只有分类器十分确信的样本被分成1,则precision有可能接近100%(既分类器没有认错实际为1的样本),而recall可能很低(没有查全)。因此,使用单一指标往往不合适。

在实际讨论中,通常需要综合2个指标。因此,之后提出了ROC曲线和AUC曲线,用于综合两个指标,更全面地反应检测器的能力。

1.2 ROC曲线和AUC值

ROC曲线使用了TPR作为纵轴,FPR作为横轴,通过不断地调整阈值(从大到小),可以得到一组TPR和FPR的坐标点,从而绘制出如下的ROC曲线。

ROC曲线样例

从直观上讲,ROC曲线越接近(0,1)点,分类能力越强。
在实际比较中,可以使用AUC(Area under Curve,曲线下的面积)作为分类器分类能力的评判标准,分类器分类能力越强,AUC越高,最高为1。

2 单目标跟踪任务

2.1 Precision Plot和Success Plot

Precision Plot和Success Plot是两个衡量目标跟踪精准度的基本参数。

SuccessPlot=\frac{\left | r_t \bigcap r_o \right |}{\left | r_t \bigcup r_o \right |}

其中,r_t为tracked bounding box,r_o为ground_truth bounding box。同样,结果用average success plot来表示,即为该视频序列所有帧的平均误差。

之后,通过不断调整阈值,可以得到average precision plot和success plot随阈值变化的图像。

precision plot(左)和success plot(右)例图

2.2 Accuracy,Robustness,EAO
在实时目标跟踪权威平台VOT2017中,官方使用了3个评价指标Accuracy,Robustness和EAO。

2.3 EAO详解

EAO提出的目的是希望一个好的跟踪器同时拥有好的A和R。
假设有N_s帧长的一个视频,那么一个跟踪器在这段视频上的覆盖率精度为每一帧精度的均值,这个精度就是IOU,用\phi表示,即

\phi_{N_s}=\frac{1}{N_s}\sum_{i=1}^{N}\phi_i

那么一个理想的EAO就是把N_sN_{low}N_{high}对应的\phi_{N_s}求个平均,就是期望平均覆盖率。([N_{low},N_{high}]是一个典型视频长度的范围,这些长度的视频占所有视频的概率是0.5)

上一篇 下一篇

猜你喜欢

热点阅读