数据分析和大叔走大数据应用之路

如何进行一场数据挖掘算法竞赛

2019-06-06  本文已影响84人  SeekerLinJunYu
一. 为什么要参加竞赛?
why.png
二. 需要哪些技能?
image.png
三. 怎么选择比赛合适的比赛?
四. 竞赛中的几个主要模块?
model.png
4.1 问题建模
4.2 EDA
EDA.png

EDA一般使用可视化和统计检测完成.

4.3 特征工程
4.3.1 数据预处理

4.3.2 特征提取
类别特征.png 时间特征.png

多值特征,可以完全展开one_hot,也可以词频统计,也可以wordToVector, embeding等进行降维.

4.3.3特征选择

没有哪种方法是一定最好的

特征案例:在比赛中的时候需要尝试多种方式,没有哪一种一定是最好的 :-)

案例.png

4.4必备模型

必备模型.png

4.5模型融合

模型融合.png
5. 竞赛过程中最重要的事
vital.png
6.好的竞赛总结比竞赛过程更总要
conclusion.png

Q:

  1. 调整单调性是什么操作?
  2. 防止过拟合的时候,使用交叉统计进行特征构造(比如数据拆分为5分,每使用4份构造一份,构造五次可以拼出一个完整的集合). 理解不够?
上一篇下一篇

猜你喜欢

热点阅读