02 特征工程 - 数据不平衡

2018-12-30 本文已影响379人白尔摩斯

数据清洗过程：

PS：工作中可能遇到的最大的问题是数据不均衡。
怎么去解决的？ 上采样、下采样、SMOTE算法。
解决的效果如何？ 有一点点改进，但不是很大。
事实上确实如此，很多时候即使用了上述算法对采样的数据进行改进，但是结果反而可能更差。在业界中，对数据不均衡问题的处理确实是一件比较头疼的问题。最好的处理方法还是：尽可能去获得更多的那些类别比较少的数据。

数据不平衡概念

在实际应用中，数据往往分布得非常不均匀，也就是会出现“长尾现象”，即：绝大多数的数据在一个范围/属于一个类别，而在另外一个范围或者另外一个类别中，只有很少的一部分数据。那么这个时候直接使用机器学习可能效果会不太少，所以这个时候需要我们进行一系列的转换操作。

而在采样过程中修改样本的权重，一般做的比较少。

数据不平衡解决方案一

设置损失函数的权重，使得少数类别数据判断错误的损失大于多数类别数据判断错误的损失，即当我们的少数类别数据预测错误的时候，会产生一个比较大的损失值，从而导致模型参数往让少数类别数据预测准确的方向偏。可以通过scikit-learn中的class_weight参数来设置权重。

数据不平衡解决方案二

下采样/欠采样(under sampling)：从多数类中随机抽取样本从而减少多数类别样本数据，使数据达到平衡的方式。

PS：比如本来样本正负例的比例是100:1，一般使用下采样将数据比例控制到4:1就是极限了。如果强行将正负例的比例控制到1:1，会损失很多样本的特性，使得模型效果还不如100:1的训练结果。

集成下采样/欠采样：采用普通的下采样方式会导致信息丢失，所以一般采用集成学习和下采样结合的方式来解决这个问题；主要有两种方式：

1、EasyEnsemble
采用不放回的数据抽取方式抽取多数类别样本数据，然后将抽取出来的数据和少数类别数据组合训练一个模型；多次进行这样的操作，从而构建多个模型，然后使用多个模型共同决策/预测。

2、BalanceCascade
利用Boosting这种增量思想来训练模型；先通过下采样产生训练集，然后使用Adaboost算法训练一个分类器；然后使用该分类器多对所有的大众样本数据进行预测，并将预测正确的样本从大众样本数据中删除；重复迭代上述两个操作，直到大众样本数据量等于小众样本数据量。

扩展一个技巧：
如果参加一个比赛，我们会在模型训练的时候将数据分成训练集和开发集。模型提交后，比赛方会提供测试集对结果进行预测。
一般来说我们训练集上的模型评分会在86 ~ 88%左右，开发集上的评分为82 ~ 84%，但是到了实际的测试集上，模型评分可能只有72%左右。
技巧来了：
1、一般来说测试集的数据是不带标签的，但是测试集依然有特征X。
2、我们都不考虑训练集和测试集的目标Y，人为创建一列目标值Z，将训练集中的Z都设为0，将测试集的目标Z都设为1。
3、寻找测试集的X和Z之间的映射。
4、根据这个X和Z之间的映射，使用训练集中的X预测Z，结果肯定是组0,1向量。
5、将预测值为1的数据提出来，作为我的开发集（用来验证我们模型的数据集合），剩下预测为0的数据作为训练集。在这个基础上对我的训练数据进行调优。

这是一个在不做任何特征的情况下对模型调优的一个技巧，一般可以将模型在真实环境中的评分提高一点点。大概72%提高到74%左右。

为什么？实际上我们做训练的目的是为了找一找比赛中人家提供给我们的训练数据和真实数据，哪些长得比较像。将更像真实测试数据的样本放到开发集中作为调参的标准，从而能够提高最终的评分。虽然没有什么科学依据，但是确实比较有效，不登大雅之堂。

数据不平衡解决方案三

Edited Nearest Neighbor(ENN)： 对于多数类别样本数据而言，如果这个样本的大部分k近邻样本都和自身类别不一样，那我们就将其删除，然后使用删除后的数据训练模型。

数据不平衡解决方案四

Repeated Edited Nearest Neighbor(RENN)： 对于多数类别样本数据而言，如果这个样本的大部分k近邻样本都和自身类别不一样，那我们就将其删除；重复性的进行上述的删除操作，直到数据集无法再被删除后，使用此时的数据集据训练模型。

数据不平衡解决方案五

Tomek Link Removal： 如果两个不同类别的样本，它们的最近邻都是对方，也就是A的最近邻是B，B的最近邻也是A，那么A、B就是Tomek Link。将所有Tomek Link中多数类别的样本删除。然后使用删除后的样本来训练模型。

$\color{red}{以上是对多数类别的样本进行删除}$

$\color{red}{下面是对少数类别的样本进行扩充}$

数据不平衡解决方案六

过采样/上采样(Over Sampling)：和欠采样采用同样的原理，通过抽样来增加少数样本的数目，从而达到数据平衡的目的。一种简单的方式就是通过有放回抽样，不断的从少数类别样本数据中抽取样本，然后使用抽取样本+原始数据组成训练数据集来训练模型；不过该方式比较容易导致过拟合一般抽样样本不要超过50%。

过采样/上采样(Over Sampling)：因为在上采样过程中，是进行是随机有放回的抽样，所以最终模型中，数据其实是相当于存在一定的重复数据，为了防止这个重复数据导致的问题，我们可以加入一定的随机性，也就是说：在抽取数据后，对数据的各个维度可以进行随机的小范围变动，eg: (1,2,3) --> (1.01, 1.99, 3)；通过该方式可以相对比较容易的降低上采样导致的过拟合问题。

数据不平衡解决方案七

采用数据合成的方式生成更多的样本，该方式在小数据集场景下具有比较成功的案例。常见算法是SMOTE算法，该算法利用小众样本在特征空间的相似性来生成新样本。

比如：给少数样本编号，1~100；将1、2样本连起来，取他们的中点(期望)，作为一个新的样本。以此类推，最后可以新生成50个样本。用这种算法一次可以提高50%的样本量。

数据不平衡解决方案八

对于正负样本极不平衡的情况下，其实可以换一种思路/角度来看待这个问题：可以将其看成一分类(One Class Learning)或者异常检测(Novelty Detection)问题，在这类算法应用中主要就是对于其中一个类别进行建模，然后对所有不属于这个类别特征的数据就认为是异常数据，经典算法包括：One Class SVM、IsolationForest等。

03 特征工程 - 特征转换 - 分词、Jieba分词