关于数据挖掘中的Multicollinearity问题和时间序列

2017-12-20  本文已影响0人  401a26360366

最近在学习Kaggle上关于预测俄罗斯地产价格的比赛

这个比赛用到的数据集里,零零总总共有300多个特征,其中有不少特征高度相关,即Multicollinearity。面对这个问题,不少Kernel做了特征选择,有基于VIF去除高度相关特征的,有用PCA降维的。

此外,这个比赛的另一个难点在于,这是时间序列预测。

针对这几个方面(multicollinearity,特征选择,数据挖掘算法下的时间序列预测),我脑子里出现了一些疑问,并试着对这些疑问进行了解答。

以下是我关于这些问题和其答案的简要记录(不详细展开了,权当存档,方便以后回忆和进一步学习)。

Q1

XGBoost(或者说tree-based模型)可以处理collinearity,为什么还要做特地在建模前做特征选择/降维?

Q2

Feature engineering中主要的特征选择方法有哪些?

Q3

在数据挖掘/机器学习中,怎么处理time series forecasting问题?

Q4

Time series问题怎么处理multicollinearity?

以上。

上一篇 下一篇

猜你喜欢

热点阅读