竞赛4-阿里天池-智能制造质量预测

2018-01-16  本文已影响0人  yz_wang

第一赛季 372 / 2529 , MSE: 0.05654

赛题介绍

赛题:https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100067.5678.1.47f128938Byxnw&raceId=231633
给出500条半导体产品的加工参数和最终一个指标Y,需要根据测试集的100条加工参数来预测出最终的指标Y的数值。评价标准是MSE均方误差。每个产品加工参数有8000+条,代表不同工序,这些工序分别在八个工作台上进行,可能存在数值漂移等问题。所有特征名称均已脱敏。这是一个典型的高维小样本回归问题。

特征工程

因为特征远远大于样本数,首先先想到把一定能去除的特征去掉后再看特征数。所以首先去除了:

  1. 整列variance=0的特征
  2. 整列NA>0.80的特征

这样删除后还剩3000+特征,还是过大,需要继续删除。
在探索过特征与Y的相关系数后发现,很多特征与Y的相关系数非常小,所以暂定删除 corr<0.2 的特征。
之后看还有没有特殊的特征需要删除或处理,发现有8个obj类型的特征,代表工作台,所以用one-hot对这些特征进行独热编码。
发现有几列特征的数值过大(>e13),打印出来后发现是代表日期,暂定生产质量只与工作参数有关,所以把这些日期参数删除。
横向来看检查每行的缺失值比例,删除>0.95缺失的行。(最终发现所有行都不满足这个条件)
一共500行,ID.unique()只有499,说明有一个ID出现了两次,调出观察发现这两条样本的ID和Y值相同,但第二条的特征缺失很多,推测应该是进行了返修之类的操作,所以把ID重复的第二条样本删除

这样操作后还剩200+条特征。

最后填补缺失值用的是中位数填补。一般方法是均值、中位数、和knn填补。由于都是同一种产品,工序和生产参数标准应该相同,就选择了中位数填补。(但是后来想了想应该用日期+工作台结合来填补。)

模型选择

因为高维小样本,很大的一个问题就是过拟合。首先想到了gbdt/xgb、SVR 和 LR模型。gbdt可以有效防止过拟合,而SVR、LR很适合高维的回归问题。

验证方法我用的是k-fold,将500条样本先留出100条作为模型评估验证集,剩下400条四折交叉验证来选参。在这个环节我也遇到了这个赛题的一个最大的难题,就是无法在线下找到一个合适的评估方法。我用的是和线上一样的MSE来评估,但是训练后的模型线下效果很好,线上效果差的比较多。导致在选参和选模型上有比较大的困难。(我相信这也是很多赛友遇到的问题,因为在AB榜切换时排名发生了很大的变化,在我看来是因为大家都没有找到合理的线下评估方法,过于依赖A榜的线上结果作为评估依据,导致模型是对A榜过拟合的)。

结合自己线下平分和A榜成绩,我最终选择了LR作为模型。SVR的效果并不好,我想可能是因为SVR对于支持向量的参数要去比较高,而原本样本的缺失值较多,无法很好的支持边界。

心得

这是我第一次做这么高维数和这么小样本的赛题。做完之后对于GBDT、XGB算法理解更深了些。但对于这样的数据怎么在线下构建评估函数仍是一个难题,等决赛结束后看过题解再来补充。


第一名题解 @笨笨的粽子妞,北京中油瑞飞信息技术有限责任公司。
https://tianchi.aliyun.com/forum/new_articleDetail.html?spm=5176.8366600.0.0.23a9311foJQqYL&raceId=231633&postsId=4020

缺失值填充:填充值为同种工具非0值的平均值。

特征选取:

模型选择:

params = {

    'reg_alpha': 0.001,

    'silent' : 1,

    'booster': 'gbtree',

    'objective': 'reg:linear',

    'eta': 0.01,

    'max_depth': 2,

    'subsample': 0.5,

    'min_child_weight': 1,

    'colsample_bytree': 0.3,

    'eval_metric': 'rmse',

    'gamma': 0,

}

   num_boost_round = 40000

在上述参数下,约30000次能够接近稳定。最终,利用训练完毕的模型对TestB进行预测,产出本次复赛最终提交的输出结果。

(所以第一名也没有构建线下评估模型

上一篇 下一篇

猜你喜欢

热点阅读