不平衡类问题-分类的评估指标
分类指标
wiki上根据混淆矩阵衍生的各类指标1.混淆矩阵
混淆矩阵混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。 具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。 在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。
准确率 ACC
(预测为正实际为正 + 预测为负实际为负) / 所有样本数
加权准确率
分别为TP FP FN TN 加上系数权重
如 (w1TP + w4TN) / (w1TN + w2FP + w3FN + w4TN)
精确率 p
预测为正实际为正 / 所有预测为正
召回率(真正率) r
预测为正实际为正 / 所有实际为正
真正率 TPR
预测为正实际为正 / 所有实际为正
真负率 TNR
预测为负实际为负 / 所有实际为负
假正率 FPR
预测为正实际为负 / 所以实际为负
假负率 FNR
预测为负实际为正 / 实际实际为正
F1指数
2 * 精确率 * 召回率 / (精确率 + 召回率) 越高, 效能越好
受试者操作特征曲线
POC曲线(a)理想情况下,TPR应该接近1,FPR应该接近0。
ROC曲线上的每一个点对应于一个threshold,对于一个分类器,每个threshold下会有一个TPR和FPR。
比如Threshold最大时,TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1)
(b)随着阈值theta增加,TP和FP都减小,TPR和FPR也减小,ROC点向左下移动;
auc 曲线下面积
曲线下面积越大, 模型性能越好
假设检验 中的第一类问题(漏报)和第二类问题(误报)(一般重视第二类问题)
image.pngimage.png
第一类错误 漏报
第二类错误 误报
针对类别不平衡问题, 由于需要尽量避免第二类误差, 引入代价敏感学习
代价矩阵使用抽样类解决类别不平衡问题
上采样
下采样
针对不平衡问题, 应该采取的方法
什么也不做。有时好运就这样降临在你的头上:你什么都不需要做。你可以使用所谓的自然(或分层)分布来进行训练,有时不需任何修改就能正常运行。
通过某些方法使得数据更加平衡:
对少数类进行过采样
对多数类进行欠采样
合成新的少数类
舍弃所有少数类,切换成一个异常检测框架。
在算法层面之上(或之后):
调整类的权重(错误分类成本)
调整决策阈值
使已有的算法对少数类更加敏感
构造一个在不平衡数据上表现更好的全新算法。