阿里天池算法大赛-电力预测大赛总结

2017-10-19  本文已影响687人  渔山樵水

赛题给的数据是14多家企业24个月中每天的用电量数据,要求预测下一月中每天该地区的总用电量。

常用的来求解回归问题的模型有:线性回归、决策树、K近邻、神经网络、支持向量机回归。

1,特征选择(也是关联性分析):
1)相关性:特征与分类信息相关度越高越好,特征间相关度越低越好。(r= 协方差/各自的标准差)
2)距离:好的特征使属于同一类的样本距离尽可能小,不同样本间距离尽可能远。散点图。
3)信息增益:同ID3算法。

2,我们在所做的特征选择的优势:
1)通过统计分析,分析出了异常用电、节假日影响;最大用电企业,以及企业用电分布。
2)借鉴ARMA模型考虑数据间关系,将上月、上上月、及去年数据同时再作为特征是使用,虽然较早的数据没有这部分特征,但是不影响GBDT模型。
3)交叉验证;时间序列不同与分类问题的样本,交叉验证时不能随机选择,而是按时间段来选择。平台上没有交叉验证函数,我们自己构建交叉验证模型。

3,对数据聚类,分别处理。
使用kmeans 根据企业周用电规律,和月用电规律进行分类。最终分成两类(可以根据轮廓系数来确定k值)。

4,模型选择,差异性融合
对与用电量较大的企业,其用电数据平稳,适合使用ARIMA,其他企业的用电数据对节假日等时刻比较敏感,随意选择GBDT。

上一篇 下一篇

猜你喜欢

热点阅读