Kaggle过程概要

2018-10-12  本文已影响0人  FrankOnTheWay

kaggle 比赛的基本流程

先对比赛的基本流程进行简述,然后再根据具体步骤进行仔细学习,顺便把PUBG那个做了,数据分析和机器学习方面就算是不用再准备别的比赛或者信息了(Challenge AI那个算CV的)。

1 Data Exploration

首先是要进行EDA(Exploratory Data Analysis),对数据进行探索性的分析,从而为之后的处理和建模提供分析。

1.1 Visualization

1.2 Statistical Tests

2 Data Preprocessing

2.1 Outlier

2.2 Dummy Variables

3 Feature Engineering

Kaggle 比赛是 “Feature 为主,调参和 Ensemble 为辅”,我觉得很有道理。Feature Engineering 能做到什么程度,取决于对数据领域的了解程度。比如在数据包含大量文本的比赛中,常用的 NLP 特征就是必须的。怎么构造有用的 Feature,是一个不断学习和提高的过程。

一般来说,当一个变量从直觉上来说对所要完成的目标有帮助,就可以将其作为 Feature。至于它是否有效,最简单的方式就是通过图表来直观感受。

3.1 Feature Selection

3.2 Feature Encoding

4 Model Selection

4.1 Model Training

4.2 Cross Validation

5. Ensemble Generation

5.1 Stacking

6 Pipeline

上一篇下一篇

猜你喜欢

热点阅读