算法性能评价指标及分析

2019-08-03 本文已影响0人几时见得清梦

模型评价指标总结：模型评价指标

一、图像分类

两者都侧重考察FP（False Positive，即误检）出现的频率。

FPPW (False Positive per Window)
- 基本含义：给定一定数目N的负样本图像，分类器将负样本判定为“正”的次数FP，其比率FP/N即为FPPW。
- FPPW意义与ROC中的假阳率相同。FPPW中，一张图就是一个样本。
FPPI (False Positive per Image)
- 基本含义：给定一定数目N的样本集，内含N张图像，每张图像内包含或不包含检测目标（每张图像均需要标注：（1）包含目标的个数；（2）目标的准确位置L）。
  然后在每张图像上运行分类器，检测目标并得到位置p。然后，检查每张图像内的检测结果是否“击中”标定的目标：
  a. 若图像内无目标，而分类器给出了n个“目标”检测结果，那么False Positive 次数 +n；
  b. 若图像内有目标，则判断p是否击中L（判断标准主要看p与L的重叠率）。若判断未击中，则False Positive 次数 +1。
  最后 FPPI = （False Positive 次数）/N。
FPPI 相比于FPPW来说，更接近于分类器的实际应用情况

实际的业务场景中，通常不会选择mAP(0.5-0.95)这种指标来衡量一个detector的性能，一般还是用FPPI、或者相同Recall下比较Precision。主要原因为：参考知乎回答
- 应用场景中一般0.5的IoU足够了，并不需要过度严格的指标，比如行人检测、人脸检测等等。
- mAP会被一些涨recall的方法推上去(脑补一下PR曲线)，比如用soft-nms，focal loss等方法测试或训出来的模型Recall会很高，mAP相应的通常会涨一些，但是都是涨的低Precision的区域，低精度区对应用场景来说没用，因为一般实际应用的时候都是卡高Precision，涨回来的Recall其实并没有什么用。
- 应用的时候会卡单一的阈值，比如0.5，mAP对阈值做了平均，这时候就更不能用了。所以常常一些涨mAP的方法在行人和人脸上其实并不能涨点，还是要根据指标和实际的应用场景来确定。