统计数据分析|SPSS操作学习笔记
Abstract:灰常全面的SPSS 学习笔记 ~
一、SPSS工具简介
1.1 SPSS 介绍
- SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案软件)
-
提供的服务:统计学分析运算、数据挖掘、预测分析和决策支持任务
-
特点:
-
图形界面进行统计分析,操作简单
-
包含几乎全部尖端统计分析方法(包括机器学习、神经网络等),具备完善的数据定义,操作管理和开放的数据接口,灵活美观的统计图表制作
-
1.2 SPSS 的运行模式
- 批处理模式
这种模式把已编写好的程序(语句程序)存为一个文件,提交给[开始]菜单上[SPSS for Windows]→[Production Mode Facility]程序运行。
- 完全窗口菜单运行模式
这种模式通过选择窗口菜单和对话框完成各种操作。用户无须学会编程,简单易用。
- 程序运行模式
这种模式是在语句(Syntax)窗口中直接运行编写好的程序或者在脚本(script)窗口中运行脚本程序的一种运行方式。这种模式要求掌握SPSS的语句或脚本语言。
- 混合运行模式
以上各种方法的综合运行方式。
1.3 SPSS主要窗口介绍
- 数据编辑窗口
-
构成:标题栏、菜单栏、工具栏、编辑栏、变量名栏、观测序号、窗口切换标签、状态栏
窗口切换标签:用于“数据视图”和“变量视图”的切换,即数据浏览窗口与变量浏览窗口。数据浏览窗口用于样本数据的查看、录入和修改。变量浏览窗口用于变量属性定义的输入和修改。
SPSS菜单功能简介:
image- 结果输出窗口
-
作用:在 SPSS 中大多数统计分析结果都将以表和图的形式在结果观察窗口中显示。
-
构成:窗口右边部分显示统计分析结果,左边是导航窗口,用来显示输出结果的目录,可以通过单击目录来展开右边窗口中的统计分析结果。
-
调出:当用户对数据进行某项统计分析,结果输出窗口将被自动调出。用户也可以通过双击后缀名为.spv 的 SPSS 输出结果文件来打开该窗口。
- 语法窗口
- 用户可以在语句窗口中直接编写SPSS命令程序,也可以使用Paste按钮把菜单运行方式下的各种命令和选项粘贴到命令窗口中,再进行进一步修改,然后通过运行主菜单的运行命令将编写好的程序一次性地提交给计算机执行。
- 脚本窗口
二、数据文件创建
2.1 数据文件介绍
- SPSS数据文件是一种结构性数据文件,由数据的结构和数据的内容两部分构成,也可以说由变量和观测两部分构成。一个典型的SPSS数据文件如下表所示:
- SPSS变量的属性
-
SPSS中的变量共有11个属性,分别是变量名(Name)、变量类型(Type)、长度(Width)、小数点位置(Decimals)、变量名标签(Label)、变量名值标签(Value)、缺失值(Missing)、数据列的显示宽度(Columns)、对其方式(Align)、度量尺度(Measure)和角色。
-
定义一个变量至少要定义它的两个属性,即变量名和变量类型,其他属性可以暂时采用系统默认值,待以后分析过程中如果有需要再对其进行设置。
-
在spss数据编辑窗口中单击变量视图标签,进入变量视窗界面(如图1.5所示)即可对变量的各个属性进行设置。
2.2 数据文件创建操作
-
创建文件
-
读取外部数据
-
数据编辑
对数据进行基本编辑操作的功能集中在Edit菜单中。Edit菜单中的数据编辑功能如下表所示:
-
数据保存
-
数据整理
(1)数据排序(Sort Case)
-
作用:对数据按照某一个或多个变量的大小排序将有利于对数据的总体浏览。
-
操作:选择菜单 Data→Sort Case
(2)抽样(Select Case)
-
作用:在统计分析中,有时不需要对所有的观测进行分析,而可能只对某些特定的对象有兴趣。利用SPSS的Select Case命令可以实现这种样本筛选的功能。
-
操作:选择菜单 Data→Select Case命令
(3)增加样品的数据合并(Merge File→Add cases)
-
作用:将新数据文件中的观测合并到原数据文件中
-
操作:选择菜单Data→Merge Files→Add Cases
(4)增加变量的数据合并(Merge File→Add variables)
-
作用:增加变量时指把两个或多个数据文件实现横向对接。例如将不同课程的成绩文件进行合并,收集来的数据被放置在一个新的数据文件中。
-
操作:选择菜单Data→Merge Files→Add Variables
(5)数据拆分(Split File)
-
作用:对文件中的观测进行分组,按组分别进行分析。
-
操作:选择菜单Data→Split File
(6)计算新变量
-
作用:在对数据文件中的数据进行统计分析的过程中,为了更有效地处理数据和反映事务的本质,有时需要对数据文件中的变量加工产生新的变量。比如经常需要把几个变量加总或取加权平均数,SPSS中通过Compute命令来产生这样的新变量。
-
操作:选择菜单Transform→Compute
2.3 实操小练习
下表为某大学的一个问卷调查,主要内容是关于教师的基本情况调查,以及对学校科研管理和服务的意向调查。请利用SPSS软件,将问卷调查结果显示成SPSS可识别的数据文件,如图:
image注意:
-
通过编辑变量值标签,使得表中有备选的项目,只需从下拉菜单选择即可。没有备选项的需自行填入数据。
-
请区分变量类型和变量尺度。
-
对数据进行排序、转置、拆分操作。
三、描述统计
3.1 描述统计介绍
-
描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。
-
统计原理
-
描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。
-
集中趋势的特征值:均值、众数、中位数等。其中均值适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
-
离散趋势的特征值:全距、内距、方差、标准差、离散系数等。其中标准差、方差适用于正态分布资料。
-
分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。
3.2 描述统计操作
3.2.1 频数分析(Frequenccies)
- 基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。比如,在某项调查中,想要知道被调查者的性别分布状况。频数分析的第一个基本任务是编制频数分布表。SPSS中的频数分布表包括的内容有:
-
频数(Frequency)即变量值落在某个区间中的次数。
-
百分比(Percent)即各频数占总样本数的百分比。
-
有效百分比(Valid Percent)即各频数占有效样本数的百分比。这里有效样本数=总样本-缺失样本数。
-
累计百分比(Cumulative Percent)即各百分比逐级累加起来的结果。最终取值为百分之百。
-
频数分析的第二个基本任务是绘制统计图。统计图是一种最为直接的数据刻画方式,能够非常清晰直观地展示变量的取值状况。频数分析中常用的统计图包括:条形图,饼图,直方图等。
-
操作:选择菜单 分析—>描述统计—>频率
3.2.2 描述统计(Descriptives)
操作:选择菜单 分析—>描述统计—>描述
3.2.3 探索分析(Explore)
-
调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。
-
探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。
-
操作:选择菜单 分析—>描述统计—>探索
-
因变量列表;待分析的变量名称,例如将每股收益率作为研究变量。
-
因子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数据按照该观察值进行分组分析。
-
标准个案:在源变量表中指定一个变量作为观察值的标识变量。
-
在输出栏中,选择“两者都”,表示输出图形及描述统计量。
- 输出结果
-
Case Processing Summary 表
-
Descriptives 表
-
直方图
-
茎叶图描述
茎叶图自左向右可以分为3 大部分:频数(Frequency)、茎(Stem)和叶(Leaf)。茎表示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组成的数字相加再乘以茎宽(Stem Width),即茎叶所表示的实际数值的近似值。
- 箱图
方箱中的中心粗线为中位数。箱图中的触须线是中间的纵向直线,上端截至线为变量的最大值,下端截至线为变量的最小值。
3.3 实操小练习
1.打开SPSS自带的Employee data.sav
文件,依照上述操作自行完成一次分析。
2.在财经网站调查如下几个公司的业绩报表,依照前面的例子完成描述性分析。
(000725,000735,002507,600016)
3.表2.7为某班级16位学生的身高数据,对其进行频数分析,并对实验结果做出说明。
表2.7 某班16位学生的身高数据
<figure class="md-table-fig" contenteditable="false" cid="n381" mdtype="table" style="box-sizing: border-box; margin: -8px 0px 0px -8px; overflow-x: auto; max-width: calc(100% + 16px); padding: 8px; color: rgb(51, 51, 51); font-family: TeXGyreAdventor, 'Century Gothic', 'Yu Gothic', Raleway, STHeiti, sans-serif; font-size: 15px; font-style: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: auto; text-align: justify; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(252, 252, 252);">
学号 | 性别 | 身高(cm) | 学号 | 性别 | 身高(cm) |
---|---|---|---|---|---|
1 | M | 170 | 9 | M | 150 |
2 | F | 173 | 10 | M | 157 |
3 | F | 169 | 11 | F | 177 |
4 | M | 155 | 12 | M | 160 |
5 | F | 174 | 13 | F | 169 |
6 | F | 178 | 14 | M | 154 |
7 | M | 156 | 15 | F | 172 |
8 | F | 171 | 16 | F | 180 |
</figure>
4.测量18台电脑笔记重量,见表2.8,对其进行描述统计量分析,并对试验结果做出说明。
表2.8 18台笔记本电脑重量表
<figure class="md-table-fig" contenteditable="false" cid="n451" mdtype="table" style="box-sizing: border-box; margin: -8px 0px 0px -8px; overflow-x: auto; max-width: calc(100% + 16px); padding: 8px; color: rgb(51, 51, 51); font-family: TeXGyreAdventor, 'Century Gothic', 'Yu Gothic', Raleway, STHeiti, sans-serif; font-size: 15px; font-style: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: auto; text-align: justify; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(252, 252, 252);">
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|
重量 | 1.75 | 1.92 | 1.59 | 1.85 | 1.83 | 1.68 | 1.89 | 1.70 | 1.79 |
序号 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 |
重量 | 1.66 | 1.80 | 1.83 | 2.05 | 1.91 | 1.76 | 1.88 | 1.83 | 1.79 |
</figure>
四、统计推断
统计原理
-
参数估计的基本原理
-
假设检验的基本原理
4.1 统计推断操作
4.1.1 单个总体均值的区间估计
-
例子:为研究在黄金时段中,即每晚8:30-9:00 内,电视广告所占时间的多少。美国广告协会抽样调查了20个最佳电视时段中广告所占的时间(单位:分钟)。请给出每晚8:30 开始的半小时内广告所占时间区间估计,给定的置信度为95%。
-
操作:进行探索分析
4.1.2 两个总体均值之差的区间估计(独立样本 T 检验)
-
例题:The WallStreet Journal(1994,7)声称在制造业中,参加工会的妇女比未参加工会的妇女的报酬要多2.5 美元。想通过统计方法,对这个观点是否正确给出检验。
假设抽取了7位女性工会会员与8位非工会会员女性报酬数据。要求对制造业中参加工会会员的女性报酬与未参加工会的女性报酬平均工资之差进行区间估计,预设的置信度为95%。
-
操作:菜单——分析——比较均值——独立样本 T 检验
4.1.3 单个总体均值的假设检验 (单样本T检验)
-
例子:某种品牌的沐浴肥皂制造程序的设计规格中要求每批平均生产120 块肥皂,高于或低于该数量均被认为是不合理的,在由10 批产品所组成的一个样本中,每批肥皂的产量数据见下表,在0.05 的显著水平下,检验该样本结果能否说明制造过程运行良好?
-
操作:菜单——分析——比较均值——单样本 T 检验
4.1.4 两独立样本的假设检验(两独立样本T检验)**
-
例题:The WallStreet Journal(1994,7)声称在制造业中,参加工会的妇女比未参加工会的妇女的报酬要多2.5 美元。想通过统计方法,对这个观点是否正确给出检验。
假设抽取了7位女性工会会员与8位非工会会员女性报酬数据。要求对制造业中参加工会会员的女性报酬与未参加工会的女性报酬平均工资之差进行区间估计,预设的置信度为95%。
-
操作:菜单——分析——比较均值——独立样本 T 检验
4.1.5 配对样本T检验
-
配对样本是对应独立样本而言的,配对样本是指一个样本在不同时间做了两次试验,或者具有两个类似的记录,从而比较其差异;独立样本检验是指不同样本平均数的比较,而配对样本检验往往是对相同样本二次平均数的检验。
-
配对样本T检验的前提条件为:第一,两样本必须是配对的。即两样本的观察值数目相同,两样本的观察值顺序不随意更改。第二,样本来自的两个总体必须服从正态分布。例如针对试验前学习成绩何智商相同的两组学生,分别进行不同教学方法的训练,进行一段时间试验教学后,比较参与试验的两组学生的学习成绩是否存在显著性差异。
-
例子:假设某校为了检验进行新式培训前后学生的学习成绩是否有了显著提高,从全校学生中随机抽出30名进行测试,这些学生培训前后的考试成绩放置于数据文件“学生培训.sav”中。
-
操作:菜单——分析——比较均值——配对样本 T 检验
4.2 实操小练习
1.某省大学生四级英语测验平均成绩为65,现从某高校随机抽取20份试卷,其分数为:72、76、68、78、62、59、64、85、70、75、61、74、87、83、54、76、56、66、68、62,问该校英语水平与全区是否基本一致?设α=0.05
2.分析某班级学生的高考数学成绩是否存在性别上的差异。数据如表所示:
某班级学生的高考数学成绩
<figure class="md-table-fig" contenteditable="false" cid="n588" mdtype="table" style="box-sizing: border-box; margin: -8px 0px 0px -8px; overflow-x: auto; max-width: calc(100% + 16px); padding: 8px; color: rgb(51, 51, 51); font-family: TeXGyreAdventor, 'Century Gothic', 'Yu Gothic', Raleway, STHeiti, sans-serif; font-size: 15px; font-style: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: auto; text-align: justify; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(252, 252, 252);">
性别 | 数学成绩 |
---|---|
男(n=18) | 85 89 75 58 86 80 78 76 84 89 99 95 82 87 60 85 75 80 |
女(n=12) | 92 96 86 83 78 87 70 65 70 65 70 78 72 56 |
</figure>
- SPSS自带的数据文件world95.sav中,保存了1995年世界上109个国家和地区的部分指标的数据,其中变量“lifeexpf”,“lifeexpm”分别为各国或地区女性和男性人口的平均寿命。假设将这两个指标数据作为样本,试用配对样本T检验,女性人口的平均寿命是否确实比男性人口的平均寿命长,并给出差异的置信区间。(设α=0.05)
五、MAC SPSS 破解版安装
-
SPSS中文版:https://pan.baidu.com/s/1eSOaAII (百度网盘下载,密码:w59n)
-
激活方法
-
需安装java环境:apple官方下载地址 https://support.apple.com/kb/DL1572?locale=zh_CN&viewlocale=zh_CN
-
打开SPSS Statistics License Authorization Wizard,在弹出的界面中输入 SN.txt 中的激活码
-
所有dmg、zip的解压密码:xclient.info