分类器的评判指标（一）

2017-06-23 本文已影响0人 BUCJ

问题导入：建立好了一个分类器，如何知道这个分类器是好是坏了？

今天我们说一下常用的分类器评判指标

对于二分类问题而言，其中的P，R分别表示Precision（查准率）和Recall（查全率），上面的TP，TN，FP，FN可以通过下面的混淆矩阵得到

查准率表征的是：在所有预测为正例的样本中，有多少比例的样本预测正确

查全率表征的是：在所有为正例的样本中，有多少比例的样本被正确找到

在现实应用中，差准率和查全率一般是相互排斥的，很难保证Precision和Recall同时增加。

举一个极端的例子：你现在一共有10个西瓜，里面有5个好瓜和5个坏瓜，你从中拿出一个瓜，并成功预测其为好瓜，那么这时查准率为1，但是查全率为1/5 = 0.2，当你增加拿出的瓜的数量，假如现在你把10个瓜都拿出来了，并都预测其为好瓜，那么这个时候查准率为5/10=0.5，但是查全率为1。在实际应用中，有些应用会比较偏重查准率，有些应用比较偏重查全率。引用周志华老师的一个例子：在肿瘤诊断中，我们希望是尽可能的查准，这里查准率比查全率要更重要些，试想一下，若更偏重查全率，抱着“宁错杀一千，不放过一人”的态度，把没有得肿瘤的人也诊断为肿瘤患者，这会造成很大的负面影响；而在罪犯抓捕应用中，则会更看重查全率，若看重查准率的话，则会错失很多抓捕罪犯的机会。

在上式中的Fbeta，beta表征的是：查全率相对查准率的重要性。若beta>1，则更偏重查全率；若beta<1，则更偏重查准率。

分类器的评判指标（一）

猜你喜欢

热点阅读