预测建模过程的理解

2021-08-14  本文已影响0人  ADO_AI

今天基于既往经验和近期所读书籍做一个简要总结,有关代码和此方面的新知识择期进行更新。

建模的过程看似简单,选择一个模型,套入数据,得到预测。但是要建好模,却并不那么简单。必须要在充分理解任务和数据的前提下,对数据进行相应的预处理和划分,进而构建模型、调整参数;这一过程可以是多个模型同步进行,然后通过效能评估,选择出最优模型的最优参数,最终完成建模。

以下分步骤进行阐述:一、理解数据;二、数据预处理和数据分割;三、模型建立、参数调整和评估; 四、模型选择

一、理解数据(又称探索性分析,Exploratory Data Analysis,EDA)

这个过程是建模的基石。充分理解数据,便于接下来对数据进行清洗和预处理,也有利于对模型的选择形成直觉。理解数据的方式包括统计描述、可视化。

二、数据预处理和数据划分

数据预处理就是基于第一步的数据理解,对数据进行增加 or 删减 or 变换. 预处理的方法不一而足,但最有效的方法,往往还是 “ 建立在建模者对问题的理解,而非任何数学方法上 ”

 要额外说明的是,有的模型自带特征筛选的功能(如LASSO),
 而模型内嵌的特征筛选,能够最大程度地适应模型需要(所谓需要,即在保有模型预测性能的前提下,尽可能减少特征)
 不在此处讨论范围内

对结果变量通常并不能使用任何的变换。当然,如果结果变量为NA,我们应该考虑将该样本删除;此外,就是关于分类结果变量分布不平衡的问题。首先,在划分数据集的时候,应按照结果变量的比例进行分层随机抽样;此外,如果结果极不平衡导致建模效能,可考虑采用各种采样方法(见参考文献),强行构造样本,使得样本结果分布均衡。

数据分割可以是简单的随机抽样,将样本分为训练集和验证集;也可以是分层随机抽样,根据结果变量的比例来分割成训练集和验证集;但实际建模过程中,多使用重抽样技术来对样本进行反复分割和利用,这样既能够提高样本的利用率,还能够构建更为鲁棒的模型,提高模型的泛化能力。重抽样方法技术:

三、模型建立、参数调整和评估 以及 四、模型选择

参考文献

上一篇 下一篇

猜你喜欢

热点阅读