新手用SPSS分类变量统计分析时必须知道的5点内容
最近在做在职研究生的论文时,教授要求用SPSS做数据实证分析,于是我开始了苦逼的自学之路,今天先把几点我在做二元逻辑回归结果解读的过程中遇到的几个问题用大白话列出来,希望能帮到那些像我这样统计学零基础却突然需要做统计分析的童鞋们。
1、虚拟变量
把定类变量作为因变量的时候,需要转化为SPSS能数字,比如得病为1,健康为0。这里多说一句,在统计学中,因变量还可称为被解释变量,自变量还可称为解释变量、控制变量。
2、卡方检验
做描述性统计时要做的检验。看两个变量(比如,1个因变量和1个自变量)之间的相关性的。一般只看第一行的“Pearson卡方”就可以,同样注意看“Sig”,这个值<0.05,则两个变量相关。
3、Hosmer-Lemeshow检验
做二元逻辑回归时需要看的内容。这个检验主要看模型的预测结果与实际发生情况的吻合程度的(术语叫“模型拟合度”)。如下图所示,重点看“Sig”值,这个值>0.05,说明拟合度比较好,最好的是这个值>0.1。
4、描述性统计
因变量是分类变量,做描述统计时,可以用“交叉表”的功能,展现出频度和百分比(占总样本)即可。因变量是连续变量的,做描述统计时,标准差、最大最小值、分布等都可以体现出来。还有记得交叉表也叫列联表……
5、二元逻辑回归
因变量是分类变量的,二分类(比如就是、否两种情况)用二元逻辑回归,多分类的就用多元逻辑回归。
我做的是二元逻辑回归时,在此可以多说一些。首先注意要看Hosmer-Lemeshow检验,拟合度不好的,需要调整模型。然后直接去看最后那张“方程中的变量”表格就可以了,主要看B(系数)、S.E.(标准误)、Sig(显著性)。B值,值越大,说明发生的可能性越高,“-”意味着负相关,反之,意味着正相关;S.E.越小越好,越小说明测量值越可靠;而Sig值<0.1即有显著性,更好一些的<0.05,最显著的<0.01。
后面的Exp(B)是B的指数,意义就是变量每增加一个单位,你的因变量的B会增加 Exp(B),不看也行。
先分享这么多,