Accuracy, Precision, Recall, F1-
2019-02-21 本文已影响0人
D_Major
参考文章https://www.cnblogs.com/sddai/p/5696870.html
假如某个班级有男生80人,女生20人,共计100人.目标是找出所有女生.
现在某人挑选出50个人,其中20人是女生,另外还错误的把30个男生也当作女生挑选出来了.
作为评估者的你需要来评估(evaluation)下他的工作

TP: 20, FP: 30, FN: 0, TN: 50
Accuracy = (TP+TN) / (TP+FP+FN+TN) = (20女+50男) / 100 = 70%
表示分类器对所有数据进行分类, 其中分类正确(包括正负类)的比例
Precision = TP / (TP+TN) = 20女 / (20女+30男) = 40%
表示分类器认为是正类的数量中实际是正类的数量
Recall = TP / (TP+FN) = 20女 / (20女+0男) = 100%
表示分类器收集到的正类占整个正类的数量
F1-Measure = 2PR / (P+R) = 2TP / (2TP+FP+FN)
推得 2/F1-Measure = 1/P + 1/R
为P和R的调和平均值
mAP(mean Average Precision)
mAP是为解决P,R,F-measure的单点值局限性的。为了得到 一个能够反映全局性能的指标,可以看考察下图,其中两条曲线(方块点与圆点)分布对应了两个检索系统的准确率-召回率曲线

可以看出,虽然两个系统的性能曲线有所交叠但是以圆点标示的系统的性能在绝大多数情况下要远好于用方块标示的系统。
从中我们可以 发现一点,如果一个系统的性能较好,其曲线应当尽可能的向上突出。
更加具体的,曲线与坐标轴之间的面积应当越大。
最理想的系统, 其包含的面积应当是1,而所有系统的包含的面积都应当大于0。这就是用以评价信息检索系统的最常用性能指标,平均准确率mAP其规范的定义如下:(其中P,R分别为准确率与召回率)