Kaggle提升模型性能的超强杀招Stacking——机器学习模

2019-02-19 本文已影响2人王同学死磕技术

之前的文章中谈到了机器学习项目中，要想使得使得机器学习模型进一步提升，我们必须使用到模型融合的技巧，今天我们就来谈谈模型融合中比较常见的一种方法——stacking。翻译成中文叫做模型堆叠，接下来我们就来了解下，此法到底如何将模型做堆叠从而提升模型效果的。

stacking具体流程

我们就对着下图（两层的stacking）来详细描述一下如何做模型stacking：

首先将数据分为5份，
在stacking的第一层定义5个基模型[model_1 ,model_2,model_3,model_4,model_5]，其中每个模型选择做一下5折的交叉验证的预测，这样就相当于每个模型将所有数据预测了一遍，举个例子，最终每一个训练数据会被转换为[1,1,1,1,0]形状，维度为5的向量。
将第一层5个基模型的输出预测向量[1,1,1,1,0]，作为第二层模型model_6的特征做训练，
做test时，直接将test的数据喂给之前第一层训练好的5个基模型，5个模型预测出的至平均后作为第二层模型的输入。

大家可以简单的将stacking的第一层模型理解成一个超强的特征转换层。

stacking

Stacking注意事项

做Stacking模型融合时需要注意以下个点，我们拿2层stacking模型融合来举例子：

第一层的基模型最好是强模型，而第二层的基模型可以放一个简单的分类器，防止过拟合。
第一层基模型的个数不能太小，因为一层模型个数等于第二层分类器的特征维度。大家可以把勉强将其想象成神经网络的第一层神经元的个数，当然这个值也不是越多越好。
第一层的基模型必须准而不同"，如果有一个性能很差的模型出现在第一层，将会严重影响整个模型融合的效果（笔者在实验过程中就遇到这样的坑）。

通过上述的描述，大家没有发现其实2层的stacking 其实和两层的神经网络有些相像，只不过stacking将神经网络第一层的神经元换成了强大的机器学习模型。

实验部分

数据准备

from sklearn.datasets import make_classification
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier as GBDT
from sklearn.ensemble import ExtraTreesClassifier as ET
from sklearn.ensemble import RandomForestClassifier as RF
from sklearn.ensemble import AdaBoostClassifier as ADA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
import numpy as np
x,y = make_classification(n_samples=6000)
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.5)

定义第一层模型

由于Stacking的第一层最后选择比较强的模型，所以这里笔者选了四个本身就是集成模型的强模型，GBDT，RandomForest，ExtraTrees，和 Adaboost。

### 第一层模型
clfs = [ GBDT(n_estimators=100),
       RF(n_estimators=100),
       ET(n_estimators=100),
       ADA(n_estimators=100)
]
X_train_stack  = np.zeros((X_train.shape[0], len(clfs)))
X_test_stack = np.zeros((X_test.shape[0], len(clfs)))

数据输入第一层模型，输出即将喂给第二层模型特征

6折交叉验证，同时通过第一层的强模型训练预测生成喂给第二层的特征数据。

### 6折stacking
n_folds = 6
skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=1)
for i,clf in enumerate(clfs):
#     print("分类器：{}".format(clf))
    X_stack_test_n = np.zeros((X_test.shape[0], n_folds))
    for j,(train_index,test_index) in enumerate(skf.split(X_train,y_train)):
                tr_x = X_train[train_index]
                tr_y = y_train[train_index]
                clf.fit(tr_x, tr_y)
                #生成stacking训练数据集
                X_train_stack [test_index, i] = clf.predict_proba(X_train[test_index])[:,1]
                X_stack_test_n[:,j] = clf.predict_proba(X_test)[:,1]
    #生成stacking测试数据集
    X_test_stack[:,i] = X_stack_test_n.mean(axis=1)

用第一层模型的输出特征，训练第二层模型

为了防止过拟合，第二层选择了一个简单的Logistics回归模型。输出Stacking模型的auc得分。

###第二层模型LR
clf_second = LogisticRegression(solver="lbfgs")
clf_second.fit(X_train_stack,y_train)
pred = clf_second.predict_proba(X_test_stack)[:,1]
roc_auc_score(y_test,pred)#0.9946

同时笔者对比了第一层四个基模型的得分情况。

GBDT分类器性能

###GBDT分类器
clf_1 = clfs[0]
clf_1.fit(X_train,y_train)
pred_1 = clf_1.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_1)#0.9922

随机森林分类器性能

###随机森林分类器
clf_2 = clfs[1]
clf_2.fit(X_train,y_train)
pred_2 = clf_2.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_2)#0.9944

ExtraTrees分类器性能

###ExtraTrees分类器
clf_3 = clfs[2]
clf_3.fit(X_train,y_train)
pred_3 = clf_3.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_3)#0.9930

AdaBoost分类器性能

###AdaBoost分类器
clf_4 = clfs[3]
clf_4.fit(X_train,y_train)
pred_4 = clf_4.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_4)#0.9875

最终结果如下图所示：其中Stacking集成模型得分最高为0.9946,而且笔者做了多次实验，性能也比较稳定。

实验结果

结语

确实Stacking集成模型后，模型的性能有了提升，同时笔者说说实验过程中遇的坑，之前的笔者在Stacking第一层放了一个Logistic回归模型，其本身的性能就不好，最终导致Stacking的效果反而变差，所以一定要记住，Stacking前面层的模型性能一定要强，还是类比神经网络，特征提取网络（NLP领域的：Tansformer，图像领域的：Resnet）一定要强，这样才能产生好的效果。做完整个实验，笔者感悟到：Stacking貌似做的还是特征转换，或者叫表示学习。