Kaggle指南（五）—— 问题求解套路

2019-08-01 本文已影响0人杰克熊

顶级的Kaggler都有自己的一套问题解决流程，熟悉这些套路能极大提高求解问题的效率。今天我们来看一下目前Kaggle总排名第四的kazanova总结出来的一套解题套路。
具体如下：

下面分别看一下各阶段主要做什么事情：

制定交叉验证（CV）策略
在对数据充分理解基础上，要确定验证策略，这一步非常重要，实际上很多排名靠前的方案最主要就是因为找到了正确的CV策略。可以从以下几点思考：

图像识别：考虑正规化（scaling），平移(shifting)，翻转(rotation)以及CNN。参考https://www.kaggle.com/c/data-science-bowl-2018
声音识别：傅立叶变换（Fourier），mfcc, 波普分析（specgram），正规化。参考https://www.kaggle.com/c/tensorflow-speech-recognition-challenge
文本分类：Tf-idf, svd, Stemming, 拼写检查（spell checking）, stop words' removal, x-grams 。参考https://www.kaggle.com/c/stumbleupon/overview
时间序列：时间延迟（Lags）,加权平均（weighted average）, 指数平滑（expotional smoothing）。参考https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting
类别数据：目标特征，频率，one-hot，顺序，label encoding。参考https://www.kaggle.com/c/amazon-employee-access-challenge
数字数据：正规化，绑定（binning）, 求导（derivatives），离群值（outlier remove）,降纬。参考
https://www.kaggle.com/c/afsis-soil-properties/overview
交互数据：相乘，相除，相加，groupby。参照https://www.kaggle.com/c/homesite-quote-conversion
推荐系统: 历史交易数据，货品流行程度，购买频度。参考https://www.kaggle.com/c/acquire-valued-shoppers-challenge

应用中每种方法独立运行评估，在不同的数据集上评估，可考虑做bagging.

这个阶段邻近竞赛结束，此时已经保存了基于不同方法的预测结果，可根据这些结果做有机整合争取最优化预测模型并提交。有多种集成学习策略，比如针对小数据集可以考虑简单的平均化（averaging），对于大规模数据集可以考虑做stacking。