样本不均衡
2018-11-17 本文已影响0人
王金松
假如一个数据集,正负样本比例为1:100
训练的模型倾向于所有的例子判为负例
因为要保证整体的损失最小
解决办法:
重采样:
对多的欠采样:
对少的重采样:数据有重复
人工生成样本
使用对样本数量干扰少的算法(DT)
假如一个数据集,正负样本比例为1:100
训练的模型倾向于所有的例子判为负例
因为要保证整体的损失最小
解决办法:
重采样:
对多的欠采样:
对少的重采样:数据有重复
人工生成样本
使用对样本数量干扰少的算法(DT)