分类不平衡问题 2018-07-05 本文已影响0人 Chooully 数据不平衡问题 答案取决于数据 平衡数据 少数样本过采样 多数样本欠采样 合成少数类样本 舍弃少数类,切换成异常检测框架 算法层面 调整分类权重 调整决策阈值 使现有算法对少数类更敏感 构造一个在不平衡数据上表现更好的全新算法 如何正确评估 不要使用准确度(错误率)来评估分类器 使用ROC曲线、准确率召回曲线(precision-recall curve)、Lift曲线或利润(收益)曲线(profit(gain)curve)对分类器表现进行可视化