2019-01-15 赛用特征工程总结

2019-01-15  本文已影响0人  吟巧

#多看赛经,还有决赛答辩。

#参与练习赛

#EDA数据可视化探索

EDA最大的作用是发现一些异常数据,并可以重新赋值。

其次是得到一些启发。这个启发很微妙因为并不知道会得到什么启发。

#关于解决过拟合

1不要轻易对A榜提交csv做集成。不要玩火。

2 这个世界是存在一些特征工程,通过转换差分target的方法,来增加数据来解决过拟合的。

3 不要迷信调参。大部分调参是无用的,少部分提升一点点的成绩。关注数据和特征更加重要。手动调参和自动调参本质上没有区别。

4 大部分情况下,正则化都有用。

#如果某次比赛没有拿到好名次。不一定是你的实力问题,还有可能是运气问题。但是只要是比赛,细节性的东西一定要注意。你越细心,运气越好。

赛经搜集

#https://zhuanlan.zhihu.com/p/43691981

该文主要是以下观点

把数据转换成图像

    原始数据转换成图像,并把前n位像素作为特征。这是Kaggle竞赛中出现的令人惊叹的特征工程之一。

Meta-leaks

  能发现数据泄漏的情况,代表数据探索分析做的好

表征学习特征

均值编码

转换目标变量

    改变目标变量分布 log(1+目标)和  转回 predictions = np.exmp1(log_predictions)。

#https://jizhi.im/blog/post/kaggle_silver

git 上有ppt

四则运算 时间段特征

地理位置特征

  聚类

文本特征

稀疏型特征

稀疏型特征
上一篇下一篇

猜你喜欢

热点阅读