数据分析|SPSS分析实战-数据清洗（一）

2019-08-08 本文已影响0人天天分析师

Dreams don't come for free.

-学习应该是面向解决问题，而不仅仅是应付考试
-在工作中学习是最迅速的，也是最有成就感的
-掌握知识最有效的路径是，看明白-做对-写明白-给别人讲明白

这是一篇基于实战的学习笔记

在这个到处都是数据的时代，很多岗位都应该学一点数据分析，不仅是学一个软件，而是要从中掌握数据分析的思维。
问卷调研仍然是广泛应用的数据获取方式，所以学习问卷调研的数据分析不过时。
数据分析只是手段，最重要的还是结合业务场景，懂业务才知道从哪里下手分析。
需要有统计学基本知识，每篇文章前面我会把涉及的统计学知识点列一下，尽量通俗易懂。
我是一个实践者、也是学习者，有问题欢迎交流探讨。

参考书目
张文彤《SPSS20.0统计分析基础教程第2版》
张文彤《SPSS20.0统计分析高级教程第2版》

软件版本 SPSS25.0

基于电子问卷获取的数据
时间在2019年，问卷调研已经很少采用纸质问卷了，除了一些留置问卷的大型项目，大量线上调研、街头拦截的项目，都采用电子问卷。
电子问卷的好处是，提前可以设置很多逻辑限定，避免了很多人为录入错误。
所以，我的学习基于通过电子问卷获得的数据。

数据清洗

数据分析的第一步是数据清洗，如果你认同这句话，恭喜！你已经具有专业思维了。
本篇用到的统计学知识点：描述统计的基本指标，正态分布

问题1：需要清洗啥？

1.1 查错，通过数据维度找到有问题的样本，并进行标识、处理。调研中常见的问题包括：

配额错误
答题时间过短
样本重复
数值问题：异常值、缺失值、错误值
前后逻辑矛盾
量表题出现大量重复答案，比如全部都选“同意”

1.2 数据形式的再加工，常见情况包括，我下一篇会具体写

多选题的预处理
开放题的编码
选项的重新分组

问题2：技术路线查错

常用的方式基本就是以下几类，根据问题实践一下，很快就可以举一反三：

数据菜单：个案排序，汇总、验证、标识重复个案、标识异常个案
分析菜单：描述统计
转换菜单：对个案中的值进行计数、Recode
逻辑语句：IF，Recode，Compute

2.1 配额错误

用描述、交叉表的方式即可，比较简单，不演示做法了。

2.2 答题时间过短

答题时长变量
在线的问卷平台，通常可以提供一个变量是问卷的答题时长，通过这个变量可以初步判断被访者是否认真回答。
合理的答题时间
一个在线问卷调查，设计回答时间的上限通常是15-20分钟，在测试阶段，我会记录一下回答的真实时间，比如10分钟左右。
那么在哪个区间是比较合理的答题时间呢？这是个经验值，也用按后面写道的查找奇异值的方法

问题样本的处理办法
对于回答时间比较短的样本，需要看一下其他问题的回答情况，觉得不太认真的，可以做废卷处理。
有时候也会出现回答时间超长的样本，可能的原因是答题中途有间断，需要根据具体情况再处理。

操作方法

第一步：排序
这是我用问卷星平台做的一个调研，SPSS导入数据以后发现，平台自动生成了一个答题时间变量totalseconds，单位是秒，字符串型变量
在变量视图下
首先要改成数字型变量，否则没法运算，直接改就好。
修改之前

点一下

image.png

修改之后

转到数据视图，在变量上右键-升序排序

排序

看回答其他问题的情况时有个小技巧，可以点一下这个按钮，可以直接看数据代表的值。

image.png

第二步，输出标记
如果确信这个样本可以做废卷处理，可以直接删，或者新建一个二分法变量ERROR，用数值1标记这个样本。因为查错还有很多步骤，可以分别设置变量ERROR1-N，用来标记不同问题。
如果有问题的样本比较少，直接手工录入数值就可以了，如果样本比较多，也可以写个语句。比较方便的是IF和Recode两个语句
把这个语句直接复制到语法对话框里，运行就可以了。
e.g.
IF totalseconds <=400 ERROR=1.
RECODE totalseconds (Lowest thru 400=1) (ELSE=0) INTO ERROR.