（3）TP、FP、F1、ROC、PR曲线

2018-11-07 本文已影响0人顽皮的石头7788121

（1）TP、FP、F1

TP ——将正类预测为正类数；FP——将负类预测为正类；TN——将负类预测为负类数；FN——将正类预测为负类数；

（精确率） $P = \frac{TP}{TP+FP}$

（召回率） $R= \frac{TP}{TP+FN}$

F1 是精确率和召回率的调和平均。 $\frac{2}{F1} = \frac{1}{P} + \frac{1}{R}$ ; $F1 = \frac{2TP}{2TP + FP + FN }$ 。当R和P都很高时候，F1系数额会很高

（2）ROC

很多学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值进行比较，若大于阈值分为正类，否则为反类，因此分类过程可以看作选取一个截断点。不同任务中，可以选择不同截断点，若更注重”查准率”，应选择排序中靠前位置进行截断，反之若注重”查全率”，则选择靠后位置截断。因此排序本身质量的好坏，可以直接导致学习器不同泛化性能好坏，ROC曲线则是从这个角度出发来研究学习器的工具。

曲线的坐标分别为真正例率（TPR）和假正例率（FPR），定义如下

$TPR = \frac{TP}{TP+FN}$ ； $FPR = \frac{FP}{TN+FP}$

ROC曲线

因现实任务中通常利用有限个测试样例来绘制ROC图，因此应为无法产生光滑曲线。

绘图过程很简单：给定m个正例子，n个反例子，根据学习器预测结果进行排序，先把分类阈值设为最大，使得所有例子均预测为反例，此时TPR和FPR均为0，在（0，0）处标记一个点，再将分类阈值依次设为每个样例的预测值，即依次将每个例子划分为正例。设前一个坐标为(x,y)，若当前为真正例，对应标记点为(x,y+1/m)，若当前为假正例，则标记点为（x+1/n,y），然后依次连接各点。

（3）PR曲线

以精确率为纵坐标，召回率为横坐标；可以画出PR曲线

RP曲线

如图，若一个学习器的P-R曲线被另一个学习器完全”包住”，则后者的性能优于前者。当存在交叉时，可以计算曲线围住面积，但比较麻烦，平衡点（查准率=查全率，BEP）是一种度量方式。

（3）TP、FP、F1、ROC、PR曲线

猜你喜欢

热点阅读