2019-05-30(模型评估方法)

2019-05-30  本文已影响0人  雨住多一横

参考原文

混淆矩阵

实际为正例 实际为反例
预测为正例 TP FP
预测为反例 FN TN

评估指标

基本评估指标

召回率(recall)\灵敏度(sensible):TP / (TP + FN)
精确率(precise):TP / (TP + FP)
准确率(accuracy):(TP + TN) / (TP + FP + TN + FN)
F1值:2pr / (p + r), 精确率和召回率的调和均值,是它们的综合评价指标。
F\alpha:F1的变体
F\alpha = \left ( \alpha ^2 + 1 \right ) PR / \left ( \alpha ^2 P + R \right )

其他评估指标

讨论

因为TPR = recall 所以ROC的纵坐标和PRC的横坐标相等。
对比TPR、FPR、Precision、Recall,可以发现,TPR、Recall的分母是正例,FPR的分母是反例,所以只要数据集确定了,这三个指标随分子增加单调递增的。Precision的分母是预测为正例的数目,这会随阈值的变化而变化,所以precision的变化更加不确定(TP 和 FP的值受到样本结构的制约,当样本结构不平衡时它们中的某个值会很大而另一个会很小),所以和PRC相比,SOC会稳定得多,征服样本都足够的情况下,SOC曲线足够反应模型的判断能力。
SOC和PRC都可以对模型的性能有一定的说明,所以评估模型时可以把他们都画出来。

模型选择方法

留出法、交叉验证发、自助法(bootstrap)
数据集小,不易划分训练集和测试集时可以采用自助法进行划分。
数据集小,但可以有效划分时用留出法进行划分
数据集大时交叉验证比较好

上一篇下一篇

猜你喜欢

热点阅读