@IT·互联网不写就出局产品方法论

数据分析之自动线性建模

2018-08-31  本文已影响31人  黄成甲

自动线性建模的特点主要有:

(1)连续变量、分类变量均可作为自变量参与建模;

(2)能自动寻找对因变量重要性最大的自变量,舍弃重要性很小或不重要的自变量;

(3)自动进行离群值和缺失值等处理,并输出一系列图表来展示回归模型的效果及相关信息;

文/黄成甲

模型评价

一般模型建立后,需要从统计学方法论的角度来评价模型建立的效果,如果有多组变量组合就可能建立多组模型,那么久需要得知其中哪些模型效果较好,需要保留,哪些模型效果较差,需要淘汰掉。

评价标准之一就是信息条件,也称为信息准则。在SPSS所有的统计过程中,常见的信息准则有AIC(赤池信息量准则)、BIC(贝叶斯信息量准则)两种,而AICC准则是为了适应小样本数据,在AIC准则准则公式的基础上进行调整修正,适用于任何样本量,AIC准则只适用于大样本数据,所以AICC准则更为通用。信息准则的数值越小表示模型越好,但没有绝对的数值大小标准,只需要通过不同模型的信息准则进行对比选择较优的即可。

模型摘要

模型摘要图用进度条来展现模型拟合的效果。它类似于普通线性回归中的R平方(决定系数),一般模型准确度大于70%就算拟合的不错,60%以下就需要修正模型,可以通过增加或删除一些自变量后再次建模进行修正,本例中模型准确度达到了94.8%,效果不错。

预测-实测散点图

预测-实测散点图用于考察预测效果,如果效果较好,数据点应该是在一条45度线上分布的。

残差图

残差是指实际值与预测值之间的差,残差图用于回归诊断,也就是用来判断当前模型是否满足回归模型的假设:回归模型在理想条件下的残差图是服从正态分布的,也就是说,图中的残差直方图和正态分布曲线是一致的。

离群值

库克距离越大的个案对回归拟合影响的程度越大,此类个案可能会导致模型准确度下降。

回归效果图

回归效果图用于展示及比较各个自变量对因变量的重要性。每个显著的连续变量均会作为一个模型项,并对应一条线条,如果有显著的分类变量纳入模型,那么模型将分类变量的每一种显著的类别分布作为模型项,并分布对应一条线条。

线条上下顺序是按照自变量的重要性大小降序排列的,由此可以判断各个自变量的重要性。线条粗细则表示显著性水平,显著性水平越高其线条越粗。

上一篇下一篇

猜你喜欢

热点阅读