算法性能评价指标及分析
2019-08-03 本文已影响0人
几时见得清梦
模型评价指标总结:模型评价指标
一、图像分类
二、目标检测
1. FPPW和FPPI
两者都侧重考察FP(False Positive,即误检)出现的频率。
-
FPPW (False Positive per Window)
- 基本含义:给定一定数目N的负样本图像,分类器将负样本判定为“正”的次数FP,其比率FP/N即为FPPW。
- FPPW意义与ROC中的假阳率相同。FPPW中,一张图就是一个样本。
-
FPPI (False Positive per Image)
- 基本含义:给定一定数目N的样本集,内含N张图像,每张图像内包含或不包含检测目标(每张图像均需要标注:(1)包含目标的个数;(2)目标的准确位置L)。
然后在每张图像上运行分类器,检测目标并得到位置p。然后,检查每张图像内的检测结果是否“击中”标定的目标:
a. 若图像内无目标,而分类器给出了n个“目标”检测结果,那么False Positive 次数 +n;
b. 若图像内有目标,则判断p是否击中L(判断标准主要看p与L的重叠率)。若判断未击中,则False Positive 次数 +1。
最后 FPPI = (False Positive 次数)/N。
- 基本含义:给定一定数目N的样本集,内含N张图像,每张图像内包含或不包含检测目标(每张图像均需要标注:(1)包含目标的个数;(2)目标的准确位置L)。
-
FPPI 相比于FPPW来说,更接近于分类器的实际应用情况
2. 用mAP衡量目标检测的性能是否科学?
- 实际的业务场景中,通常不会选择mAP(0.5-0.95)这种指标来衡量一个detector的性能,一般还是用FPPI、或者相同Recall下比较Precision。主要原因为:参考知乎回答
- 应用场景中一般0.5的IoU足够了,并不需要过度严格的指标,比如行人检测、人脸检测等等。
- mAP会被一些涨recall的方法推上去(脑补一下PR曲线),比如用soft-nms,focal loss等方法测试或训出来的模型Recall会很高,mAP相应的通常会涨一些,但是都是涨的低Precision的区域,低精度区对应用场景来说没用,因为一般实际应用的时候都是卡高Precision,涨回来的Recall其实并没有什么用。
- 应用的时候会卡单一的阈值,比如0.5,mAP对阈值做了平均,这时候就更不能用了。所以常常一些涨mAP的方法在行人和人脸上其实并不能涨点,还是要根据指标和实际的应用场景来确定。