总结|公共自行车使用量预测

2020-06-06  本文已影响0人  大饼与我

本篇文章主要对在本次竞赛中排名靠前的同学的优化方法进行总结。
东文,14.835 第47名
冰琪,14.852 第50名
继端,14.871 第57名
可自行点击上述文章详细了解他们的优化过程

一、前言


二、相同点分析

优化思路相似

三、差异点分析

3.1 不使用工具 VS 使用工具

这带来的差异有
(1)冰琪和东文在前面所进行的数据处理和特征处理都成了“无用功”。最后他们两个都发现,不进行任何数据处理和特征处理的原始数据,利用gridsearchCV进行调参的结果最佳,RMSE值最小。(当然,实践出真知,也只有试过了才知如何达到最优,并不是否定冰琪和东文的做法,只是陈述这一事实)
(2)反观继端,他前面的每一步数据处理和特征处理都是有用的,数据和特征的处理的处理使得损失值从18.847降到了14.32。



(3)但最终经过调参后,使用网格搜索的冰琪和东文的排名都优于不使用的继端。
3.1.2 使用工具与不使用工具孰优孰劣?(gridSearchCV)
使用gridSearchCV

Q:关于使用gridSearchCV过拟合的风险,我询问了东文。
东文:gridSearchCV本身就是结合了交叉验证的,是使用验证集来计算最佳分数(最佳分数的评判标准可以自己设置),所以过拟合的风险和平时自己划分训练集 、测试集是一样的。

不使用工具

3.2 坐标下降调参vs遍历所有参数组合调参

东文和冰琪的选择:
使用一个快速调优的方法——坐标下降
拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。

继端的选择:
固定树的不同深度,同时对其他参数一起调整,遍历所有参数组合,返回损失值最小的参数参合,即最优参数组合。


四、总结

首先,三位同学优化的结果是很棒的。
其次,我认为他们使用的方法可以互相结合。

具体来说:

东文和冰琪可以改进的地方有:
继端可以改进的地方有:

以上都是我个人的拙见,仅供参考,希望对大家有帮助~

上一篇 下一篇

猜你喜欢

热点阅读