2018DC数据科学竞赛
2018-11-27 本文已影响0人
过气海豹
第一次组队参加比赛,第一次写博客。
这次DC住房月租金预测大数据赛收获还是挺多的,对我之后再组队参加类似的比赛将会有很大的帮助。
一场数据挖掘的比赛,要做的事情很多,首先是要拿到数据,如果数据很dirty(基本上比赛的数据都是这样的),先要进行数据预处理。数据预处理也分很多部分,比如数据清洗(缺失值和异常值处理)、数据变换等。这次比赛,比赛中我只简单处理了缺失值,尝试用0和均值填充缺失值,没有做数据变换等其他的处理方式,感觉很吃亏。建模过程中,我用了简单线性回归模型和多元线性回归模型,以及效果最好的随机森林模型。
暂时先写到这吧,贴一个大佬的开源:
https://github.com/notplaid/prices