数据&量化

Kaggle指南(五)—— 问题求解套路

2019-08-01  本文已影响0人  杰克熊

顶级的Kaggler都有自己的一套问题解决流程,熟悉这些套路能极大提高求解问题的效率。今天我们来看一下目前Kaggle总排名第四的kazanova总结出来的一套解题套路。
具体如下:

下面分别看一下各阶段主要做什么事情:

  1. 理解问题
  1. 探索性数据分析
  1. 制定交叉验证(CV)策略
    在对数据充分理解基础上,要确定验证策略,这一步非常重要,实际上很多排名靠前的方案最主要就是因为找到了正确的CV策略。可以从以下几点思考:
  1. 特征工程
    特征工程做的好坏在大多数竞赛问题中起到了决定性的作用,面对不同问题需要采取不同策略,具体思考方向如下。
  1. 方法建模
    类似于特征工程, 根据不同问题有不同的建模策略

应用中每种方法独立运行评估, 在不同的数据集上评估,可考虑做bagging.

  1. 集成学习

这个阶段邻近竞赛结束,此时已经保存了基于不同方法的预测结果,可根据这些结果做有机整合争取最优化预测模型并提交。有多种集成学习策略,比如针对小数据集可以考虑简单的平均化(averaging), 对于大规模数据集可以考虑做stacking。

上一篇下一篇

猜你喜欢

热点阅读