SPSS数据分析从零开始

（17）自动线性建模

2019-04-03 本文已影响2722人职场办公技能500强企业实战

自动线性建模特点：

1）连续变量和分类变量都可以作为自变量进行线性自动建模。

2）能自动寻找对因变量重要性最大的自变量，舍弃重要性很小或不重要的自变量，我们不必去关心自变量，自动化的过程会根据数据的特征选择最佳的自变量。

3、会自动进行离群值和缺失值的处理。

如果已经在数据文件中对数据变量的“角色”属性设置为【输入】【目标】，便可以使用“使用预定义角色”。

如果没有设置，我们可以自定义【使用定制字段分配】，手动设置好“输入”和“目标”，我们可以吧明显不是自变量的变量移出“输入”，比如“日期”。

【构建选项】：主要用来设置建立模型的相关参数。

【构建选项】--【目标】

目标--创建标准模型：创建一个可以使用自变量预测目标的传统模型。

标准模型的评分速度更快，易于理解，最常用。

目标--增强模型准确度：可生成一个模型序列来获得更多精确地预测值。

需要较长的时间来构建和预测评分。

目标--增强模型稳定性：生成多个模型序列来获得更多可靠的预测值。

需要更长的时间来构建和预测评分。

目标--为大型数据集创建模型。。。。

【构建选项】--【基本】

主要用来设置是否自动准备数据，也就是是否自动进行离群值和缺失值等的处理。一般默认勾选“自动准备数据”

【构建选项】--【模型选择】

1）包括所有预测变量：不做自变量筛选，将所有自变量都参与模型的建立。

2）向前步进：将自变量逐个引入模型中，并做显著性验证，之道再也没有不显著的自变量被剔除为止。若选择【向前步进】的方法，需要设置【条件】，默认为“信息条件Aicc”即可。

3）最佳子集：自动筛选最佳变量，因为选择过重要考虑所有变量组合方式，因此时间长，变量超过10个时不建议使用。

PS：只有方法是“向前步进”时候，才需要设置条件，默认Aicc即可。

选择别的方法时，没有条件可选

信息准则Aicc：数值越小便是模型越好，需要对比不同模型的信息准则，选择最优的即可。

主要用于可能会建立多组模型时，判断模型的效果。

【模型选项】：主要用来设置模型的额保存

勾选“将预测值保存到数据集”后，可新生成一个预测变量，名字可以自定义。

此处保存模型，是为了后面做预测时进行使用

模型结果的解读：

这张图用进度条来展示模型拟合的效果，类似于简单线性回归分析中的R方，类似于多种线性回归分析中的调整后的R方。

本例模型的准确度达到了94.8%，效果很好。

一般模型准确度大于70%就算拟合的不错，小于60%时就需要修正模型，可以通过增删自变量等方式进行修正。

这个表没什么卵用，了解一下就行

这个表说明了自变量对因变量的重要性，所有自变量的重要性之和为1，其中自变量的重要性对模型的准确度无关。

本例中“广告费用”的重要度为0.97，“广告推广渠道”的重要性为0.03.

如果效果好，数据点应该是落在一条45度线上分布。

本例中预测值和是基因变量值较为接近，预测效果较好。

这张是残差图：

残差图是指实际值和预测值自己建的差，用于回归诊断，也就是诊断当前模型是否满足回归模型的假设：回归模型理想条件下的残差图应该服从正态分布。

本例中残差直方图和正态曲线是一致的，可以得出残差图是接近正态分布的结论，满足回归模型的假设。

这是残差图的P-P图表达方式：越靠近直线，表示残差的分布越接近正太分布。

库克距离越大的个案，对模型的影响越大，此类个案会导致模型精度的下降

线条上下顺序是按照自变量的重要性大小降序排列。

线条的粗细表示显著性水平，显著性水平越高的线条越粗。

这是另一种表达方式，我们可以看出自变量的重要性和显著性的具体数值。

这张【回归效果图】最重要，我们可以根据他得出结果。

上下位置代表自变量重要性；线条粗细代表显著性；颜色代表正负。

已表的方式展现，可以看到具体数值：

我们发现两个变量都具有极其显著的统计学意义。

购买用户数=1768.096+94.439*广告费用--15.681*广告投放渠道

因变量与各个自变量的均直线图，不显著的自变量不会生成对应的均直线图。

我们采用的是【向前步进】方法，最后出来了两个模型，我们选择了模型2，即信息条件AICC值更小的模型

我们看一下如何进行预测：

【实用程序】--【评分向导】

选择我们已经保存的模型

可以自定义预测值的名称

结果如下：生成了一个新的变量“预测值”

上一篇下一篇

猜你喜欢

热点阅读