机器学习

分类模型性能评价及选择

2018-03-25  本文已影响6人  灵妍

这里我们有两个概念,伪阴性和伪阳性,前者是实际发生了但是预测没有发生,所以叫伪阴性,又称耳机错误,实际中后果比一级错误,也就是伪阳性,实际没有发生,但是预测发生了,要严重一些。
讲下混淆矩阵。将实际结果作为行,预测结果作为列,累加测试集个数,在混淆矩阵中可以清除的看到伪阳性和伪阴性的数值分布。
接下来讲一下预测准确性,我们用预测正确的样本的个数除以总的测试集的个数,得到的就是预测准确性,但是存在悖论,有一种情况,比如对于随机的测试集,某种预测结果正确的概率远远大于其它预测结果正确的概率,我们把测试集的结果全部预测为正确率比较高的那种结果,得到的预测准确率,说不定比模型还要高。
接下来将一种累计准确曲线,更准确的评价模型的好坏,我们在所有样本中,按照模型预测结果的好坏来选择目标人群,购买的比例与随机抽取的比例作比较。有一种完美情况,面积比值法可以预测模型的好坏,同时,在自变量为50%时因变量的值与实际的差值,也会有评价好坏。
但是模型太好了是有三种可能的情况的:
一是自变量中存在与因变量呈现因果关系或者说是强相关关系的变量,这里的例子比如说打电话的次数是人群中的一个特征,但是由于售后的原因,买了的人打电话的次数自然要高,这可以近似于因果关系。
二是训练集过拟合。
三是模型确实很好,是个建模天才。


伪阳性和伪阴性.PNG

我们采用的例子是根据用户的年龄判断他是否会买SUV车,通过逻辑回归中的S函数预测用户年龄与买SUV车概率的曲线。


混淆矩阵.PNG
准确悖论.PNG
通过概率曲线得到的准确性悖论可以知道预测准确性并不能很好的反应模型的好坏,因为它只对某一种类型的样本预测结果比较好,对其它类型的样本预测结果并不好。
累积准确曲线.PNG
曲线越凸起,说明预测结果越好。
ROC.PNG
CPA面积分析.PNG
这一使用预测模型的曲线与完美的曲线做一个面积的比值,面积的差值都是相对于随机直线而言的。越接近1说明效果越好。
CPA中位数分析.PNG
这里通过总体样本百分之50的因变量差值来衡量模型的好坏,太好了,要确定不是自变量中含有因变量的因果关系变量。

当然我们在这里是对总体的样本进行统计,可以通过测试集的统计预测是不是过拟合。


分类器比较.PNG
可以看出,SVM适合低维度的问题,决策树和随机森林适合样本比较多的模型,至于逻辑回归如何得到特征显著性,可以回去复习。
上一篇 下一篇

猜你喜欢

热点阅读