数据挖掘与机器学习

分类模型常用评价指标

2020-02-12  本文已影响0人  清梦载星河

一、 基本指标

基于准确率和误差率,可以衍生出混淆矩阵的概念:

名词及其缩写 模型预测 实际也是正(1)
True Positive(TP) 正(1) 正(1)
True Negative(TN) 负(0) 负(0)
False Positive(FP) 正(1) 负(0)
False Negative(FN) 负(0) 正(1)

二、衍生指标

指标 定义 公式
Accuracy(正确率) 模型总体的正确率,即模型能正确预测、识别0和1的对象数量与预测对象的比值 (TP+TN) / (TP+FP+TN+FN)
Error Rate(错误率) 模型总体的错误率 1 - Accuracy
Sensitivity(敏感度) 模型正确识别为正的对象占全部观察对象中实际为正的对象数量的比值 TP / (TP+TN)
Specificity(特效性或真负率) 模型正确识别为负(0)的对象占全部观察对象中实际为负(0)的对象数量的比值 TN / (TN+FP)
Precision(精度或查准率) 模型的精度是指模型正确识别为正(1)的对象占模型识别为正(1)的观察对象总书的比值 TP / (TP+FP)
False Positive Rate(错正率) 模型错误地识别为正的对象数量占实际为负的对象数量的比值 1 - Specificity
Negative Predictive Value(负元正确率) 模型正确识别为负(0)的对象数量占模型识别为负的观察数量总数的比值 TN / (TN+FN)
False Discoverery Rate(正元错误率) 模型错误识别为正的对象数量占模型识别为正的观察对象总数的比值 FP / (TP+FP)

相关sklearn函数:

三、其他指标

ROC曲线

ROC曲线是一种有效比较两个及以上分类模型的的可是工具,其显示了给定模型的灵敏性真正率与假正率之间的比较评定。

ROC曲线下面的面积越大,准确度越高;面积约接近0.5,准确率越低。

以上是一些教材中对ROC曲线的定义,而在sklearn中,对ROC曲线有不同的解读。

在sklearn中,ROC曲线以TP比率为纵轴,以FP比率为横轴,并将ROC曲线与坐标轴之间的面积定义为AUC值,AUC越接近1,代表模型准确率越高;AUC等于0.5,代表模型准确率与随机猜测准确率一致;AUC小于0.5,代表模型效果不如随机猜测。

四、关于模型优化的说明

4.1 数据挖掘模型的有话要遵循有效、适度的原则

4.2 如何有效地优化模型

4.2.1 从业务思路上优化

从业务思路上优化可以从以下几个层面进行考虑:

4.2.2 从建模的技术思路上优化

从建模的技术思路上优化,指的是在建模的总体技术思路、总体技术方向进行比较、权衡。建模的总体技术思路包括不同的建模算法、不同的抽样方法、有没有必要通过细分群体来建模等。

4.2.3 从建模的技术技巧上优化

建模技巧更多的是“锦上添花”的作用,业务思路才是建模优化的主要措施。


相关文章:

上一篇 下一篇

猜你喜欢

热点阅读