(17)自动线性建模
自动线性建模特点:
1)连续变量和分类变量都可以作为自变量进行线性自动建模。
2)能自动寻找对因变量重要性最大的自变量,舍弃重要性很小或不重要的自变量,我们不必去关心自变量,自动化的过程会根据数据的特征选择最佳的自变量。
3、会自动进行离群值和缺失值的处理。
如果已经在数据文件中对数据变量的“角色”属性设置为【输入】【目标】,便可以使用“使用预定义角色”。
如果没有设置,我们可以自定义【使用定制字段分配】,手动设置好“输入”和“目标”,我们可以吧明显不是自变量的变量移出“输入”,比如“日期”。
【构建选项】:主要用来设置建立模型的相关参数。
【构建选项】--【目标】
目标--创建标准模型:创建一个可以使用自变量预测目标的传统模型。
标准模型的评分速度更快,易于理解,最常用。
目标--增强模型准确度:可生成一个模型序列来获得更多精确地预测值。
需要较长的时间来构建和预测评分。
目标--增强模型稳定性:生成多个模型序列来获得更多可靠的预测值。
需要更长的时间来构建和预测评分。
目标--为大型数据集创建模型。。。。
【构建选项】--【基本】
主要用来设置是否自动准备数据,也就是是否自动进行离群值和缺失值等的处理。一般默认勾选“自动准备数据”
【构建选项】--【模型选择】
1)包括所有预测变量:不做自变量筛选,将所有自变量都参与模型的建立。
2)向前步进:将自变量逐个引入模型中,并做显著性验证,之道再也没有不显著的自变量被剔除为止。若选择【向前步进】的方法,需要设置【条件】,默认为“信息条件Aicc”即可。
3)最佳子集:自动筛选最佳变量,因为选择过重要考虑所有变量组合方式,因此时间长,变量超过10个时不建议使用。
PS:只有方法是“向前步进”时候,才需要设置条件,默认Aicc即可。
选择别的方法时,没有条件可选
信息准则Aicc:数值越小便是模型越好,需要对比不同模型的信息准则,选择最优的即可。
主要用于可能会建立多组模型时,判断模型的效果。
【模型选项】:主要用来设置模型的额保存
勾选“将预测值保存到数据集”后,可新生成一个预测变量,名字可以自定义。
此处保存模型,是为了后面做预测时进行使用
模型结果的解读:
这张图用进度条来展示模型拟合的效果,类似于简单线性回归分析中的R方,类似于多种线性回归分析中的调整后的R方。
本例模型的准确度达到了94.8%,效果很好。
一般模型准确度大于70%就算拟合的不错,小于60%时就需要修正模型,可以通过增删自变量等方式进行修正。
这个表没什么卵用,了解一下就行
这个表说明了自变量对因变量的重要性,所有自变量的重要性之和为1,其中自变量的重要性对模型的准确度无关。
本例中“广告费用”的重要度为0.97,“广告推广渠道”的重要性为0.03.
如果效果好,数据点应该是落在一条45度线上分布。
本例中预测值和是基因变量值较为接近,预测效果较好。
这张是残差图:
残差图是指实际值和预测值自己建的差,用于回归诊断,也就是诊断当前模型是否满足回归模型的假设:回归模型理想条件下的残差图应该服从正态分布。
本例中残差直方图和正态曲线是一致的,可以得出残差图是接近正态分布的结论,满足回归模型的假设。
这是残差图的P-P图表达方式:越靠近直线,表示残差的分布越接近正太分布。
库克距离越大的个案,对模型的影响越大,此类个案会导致模型精度的下降
线条上下顺序是按照自变量的重要性大小降序排列。
线条的粗细表示显著性水平,显著性水平越高的线条越粗。
这是另一种表达方式,我们可以看出自变量的重要性和显著性的具体数值。
这张【回归效果图】最重要,我们可以根据他得出结果。
上下位置代表自变量重要性;线条粗细代表显著性;颜色代表正负。
已表的方式展现,可以看到具体数值:
我们发现两个变量都具有极其显著的统计学意义。
购买用户数=1768.096+94.439*广告费用--15.681*广告投放渠道
因变量与各个自变量的均直线图,不显著的自变量不会生成对应的均直线图。
我们采用的是【向前步进】方法,最后出来了两个模型,我们选择了模型2,即信息条件AICC值更小的模型
我们看一下如何进行预测:
【实用程序】--【评分向导】
选择我们已经保存的模型
可以自定义预测值的名称
结果如下:生成了一个新的变量“预测值”