大数据,机器学习,人工智能机器学习与数据挖掘

Kaggle提升模型性能的超强杀招Stacking——机器学习模

2019-02-19  本文已影响2人  王同学死磕技术

之前的文章中谈到了机器学习项目中,要想使得使得机器学习模型进一步提升,我们必须使用到模型融合的技巧,今天我们就来谈谈模型融合中比较常见的一种方法——stacking。翻译成中文叫做模型堆叠,接下来我们就来了解下,此法到底如何将模型做堆叠从而提升模型效果的。

stacking具体流程

我们就对着下图(两层的stacking)来详细描述一下如何做模型stacking:

大家可以简单的将stacking的第一层模型理解成一个超强的特征转换层

stacking

Stacking注意事项

做Stacking模型融合时需要注意以下个点,我们拿2层stacking模型融合来举例子:

通过上述的描述,大家没有发现其实2层的stacking 其实和两层的神经网络有些相像,只不过stacking将神经网络第一层的神经元换成了强大的机器学习模型

实验部分

数据准备

from sklearn.datasets import make_classification
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier as GBDT
from sklearn.ensemble import ExtraTreesClassifier as ET
from sklearn.ensemble import RandomForestClassifier as RF
from sklearn.ensemble import AdaBoostClassifier as ADA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
import numpy as np
x,y = make_classification(n_samples=6000)
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.5)

定义第一层模型

由于Stacking的第一层最后选择比较强的模型,所以这里笔者选了四个本身就是集成模型的强模型,GBDT,RandomForest,ExtraTrees,和 Adaboost。

### 第一层模型
clfs = [ GBDT(n_estimators=100),
       RF(n_estimators=100),
       ET(n_estimators=100),
       ADA(n_estimators=100)
]
X_train_stack  = np.zeros((X_train.shape[0], len(clfs)))
X_test_stack = np.zeros((X_test.shape[0], len(clfs))) 

数据输入第一层模型,输出即将喂给第二层模型特征

6折交叉验证,同时通过第一层的强模型训练预测生成喂给第二层的特征数据。

### 6折stacking
n_folds = 6
skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=1)
for i,clf in enumerate(clfs):
#     print("分类器:{}".format(clf))
    X_stack_test_n = np.zeros((X_test.shape[0], n_folds))
    for j,(train_index,test_index) in enumerate(skf.split(X_train,y_train)):
                tr_x = X_train[train_index]
                tr_y = y_train[train_index]
                clf.fit(tr_x, tr_y)
                #生成stacking训练数据集
                X_train_stack [test_index, i] = clf.predict_proba(X_train[test_index])[:,1]
                X_stack_test_n[:,j] = clf.predict_proba(X_test)[:,1]
    #生成stacking测试数据集
    X_test_stack[:,i] = X_stack_test_n.mean(axis=1) 

用第一层模型的输出特征,训练第二层模型

为了防止过拟合,第二层选择了一个简单的Logistics回归模型。输出Stacking模型的auc得分。

###第二层模型LR
clf_second = LogisticRegression(solver="lbfgs")
clf_second.fit(X_train_stack,y_train)
pred = clf_second.predict_proba(X_test_stack)[:,1]
roc_auc_score(y_test,pred)#0.9946

同时笔者对比了第一层四个基模型的得分情况。

GBDT分类器性能

###GBDT分类器
clf_1 = clfs[0]
clf_1.fit(X_train,y_train)
pred_1 = clf_1.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_1)#0.9922

随机森林分类器性能

###随机森林分类器
clf_2 = clfs[1]
clf_2.fit(X_train,y_train)
pred_2 = clf_2.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_2)#0.9944

ExtraTrees分类器性能

###ExtraTrees分类器
clf_3 = clfs[2]
clf_3.fit(X_train,y_train)
pred_3 = clf_3.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_3)#0.9930

AdaBoost分类器性能

###AdaBoost分类器
clf_4 = clfs[3]
clf_4.fit(X_train,y_train)
pred_4 = clf_4.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_4)#0.9875

最终结果如下图所示:其中Stacking集成模型得分最高为0.9946,而且笔者做了多次实验,性能也比较稳定。


实验结果

结语

确实Stacking集成模型后,模型的性能有了提升,同时笔者说说实验过程中遇的坑,之前的笔者在Stacking第一层放了一个Logistic回归模型,其本身的性能就不好,最终导致Stacking的效果反而变差,所以一定要记住,Stacking前面层的模型性能一定要强,还是类比神经网络,特征提取网络(NLP领域的:Tansformer,图像领域的:Resnet)一定要强,这样才能产生好的效果。做完整个实验,笔者感悟到:Stacking貌似做的还是特征转换,或者叫表示学习。

上一篇 下一篇

猜你喜欢

热点阅读