2019-01-15 赛用特征工程总结
2019-01-15 本文已影响0人
吟巧
#多看赛经,还有决赛答辩。
#参与练习赛
#EDA数据可视化探索
EDA最大的作用是发现一些异常数据,并可以重新赋值。
其次是得到一些启发。这个启发很微妙因为并不知道会得到什么启发。
#关于解决过拟合
1不要轻易对A榜提交csv做集成。不要玩火。
2 这个世界是存在一些特征工程,通过转换差分target的方法,来增加数据来解决过拟合的。
3 不要迷信调参。大部分调参是无用的,少部分提升一点点的成绩。关注数据和特征更加重要。手动调参和自动调参本质上没有区别。
4 大部分情况下,正则化都有用。
#如果某次比赛没有拿到好名次。不一定是你的实力问题,还有可能是运气问题。但是只要是比赛,细节性的东西一定要注意。你越细心,运气越好。
赛经搜集
#https://zhuanlan.zhihu.com/p/43691981
该文主要是以下观点
把数据转换成图像
原始数据转换成图像,并把前n位像素作为特征。这是Kaggle竞赛中出现的令人惊叹的特征工程之一。
Meta-leaks
能发现数据泄漏的情况,代表数据探索分析做的好
表征学习特征
均值编码
转换目标变量
改变目标变量分布 log(1+目标)和 转回 predictions = np.exmp1(log_predictions)。
#https://jizhi.im/blog/post/kaggle_silver
git 上有ppt
四则运算 时间段特征地理位置特征
聚类
文本特征稀疏型特征
稀疏型特征