spss统计分析*数据挖掘

统计数据分析|SPSS操作学习笔记

2018-05-26  本文已影响0人  花生酱Scarlett

Abstract:灰常全面的SPSS 学习笔记 ~

一、SPSS工具简介

1.1 SPSS 介绍

  1. SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案软件)

1.2 SPSS 的运行模式

  1. 批处理模式

这种模式把已编写好的程序(语句程序)存为一个文件,提交给[开始]菜单上[SPSS for Windows]→[Production Mode Facility]程序运行。

  1. 完全窗口菜单运行模式

这种模式通过选择窗口菜单和对话框完成各种操作。用户无须学会编程,简单易用。

  1. 程序运行模式

这种模式是在语句(Syntax)窗口中直接运行编写好的程序或者在脚本(script)窗口中运行脚本程序的一种运行方式。这种模式要求掌握SPSS的语句或脚本语言。

  1. 混合运行模式

以上各种方法的综合运行方式。

1.3 SPSS主要窗口介绍

  1. 数据编辑窗口
image

窗口切换标签:用于“数据视图”和“变量视图”的切换,即数据浏览窗口与变量浏览窗口。数据浏览窗口用于样本数据的查看、录入和修改。变量浏览窗口用于变量属性定义的输入和修改。

SPSS菜单功能简介:

image
  1. 结果输出窗口
image
  1. 语法窗口
image
  1. 脚本窗口
image

二、数据文件创建

2.1 数据文件介绍

  1. SPSS数据文件是一种结构性数据文件,由数据的结构和数据的内容两部分构成,也可以说由变量和观测两部分构成。一个典型的SPSS数据文件如下表所示:
image
  1. SPSS变量的属性
image

2.2 数据文件创建操作

  1. 创建文件

  2. 读取外部数据

  3. 数据编辑

    对数据进行基本编辑操作的功能集中在Edit菜单中。Edit菜单中的数据编辑功能如下表所示:

image
  1. 数据保存

  2. 数据整理

(1)数据排序(Sort Case)

(2)抽样(Select Case)

(3)增加样品的数据合并(Merge File→Add cases)

(4)增加变量的数据合并(Merge File→Add variables)

(5)数据拆分(Split File)

(6)计算新变量

2.3 实操小练习

下表为某大学的一个问卷调查,主要内容是关于教师的基本情况调查,以及对学校科研管理和服务的意向调查。请利用SPSS软件,将问卷调查结果显示成SPSS可识别的数据文件,如图:

image

注意:

  1. 通过编辑变量值标签,使得表中有备选的项目,只需从下拉菜单选择即可。没有备选项的需自行填入数据。

  2. 请区分变量类型和变量尺度。

  3. 对数据进行排序、转置、拆分操作。

三、描述统计

3.1 描述统计介绍

  1. 描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。

  2. 统计原理

3.2 描述统计操作

3.2.1 频数分析(Frequenccies)

  1. 基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。比如,在某项调查中,想要知道被调查者的性别分布状况。频数分析的第一个基本任务是编制频数分布表。SPSS中的频数分布表包括的内容有:
  1. 频数分析的第二个基本任务是绘制统计图。统计图是一种最为直接的数据刻画方式,能够非常清晰直观地展示变量的取值状况。频数分析中常用的统计图包括:条形图,饼图,直方图等。

  2. 操作:选择菜单 分析—>描述统计—>频率

3.2.2 描述统计(Descriptives)

操作:选择菜单 分析—>描述统计—>描述

3.2.3 探索分析(Explore)

  1. 调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。

  2. 探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。

  3. 操作:选择菜单 分析—>描述统计—>探索

  1. 输出结果

茎叶图自左向右可以分为3 大部分:频数(Frequency)、茎(Stem)和叶(Leaf)。茎表示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组成的数字相加再乘以茎宽(Stem Width),即茎叶所表示的实际数值的近似值。

方箱中的中心粗线为中位数。箱图中的触须线是中间的纵向直线,上端截至线为变量的最大值,下端截至线为变量的最小值。

3.3 实操小练习

1.打开SPSS自带的Employee data.sav文件,依照上述操作自行完成一次分析。

2.在财经网站调查如下几个公司的业绩报表,依照前面的例子完成描述性分析。

(000725,000735,002507,600016)

3.表2.7为某班级16位学生的身高数据,对其进行频数分析,并对实验结果做出说明。

表2.7 某班16位学生的身高数据

<figure class="md-table-fig" contenteditable="false" cid="n381" mdtype="table" style="box-sizing: border-box; margin: -8px 0px 0px -8px; overflow-x: auto; max-width: calc(100% + 16px); padding: 8px; color: rgb(51, 51, 51); font-family: TeXGyreAdventor, 'Century Gothic', 'Yu Gothic', Raleway, STHeiti, sans-serif; font-size: 15px; font-style: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: auto; text-align: justify; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(252, 252, 252);">

学号 性别 身高(cm) 学号 性别 身高(cm)
1 M 170 9 M 150
2 F 173 10 M 157
3 F 169 11 F 177
4 M 155 12 M 160
5 F 174 13 F 169
6 F 178 14 M 154
7 M 156 15 F 172
8 F 171 16 F 180

</figure>

4.测量18台电脑笔记重量,见表2.8,对其进行描述统计量分析,并对试验结果做出说明。

表2.8 18台笔记本电脑重量表

<figure class="md-table-fig" contenteditable="false" cid="n451" mdtype="table" style="box-sizing: border-box; margin: -8px 0px 0px -8px; overflow-x: auto; max-width: calc(100% + 16px); padding: 8px; color: rgb(51, 51, 51); font-family: TeXGyreAdventor, 'Century Gothic', 'Yu Gothic', Raleway, STHeiti, sans-serif; font-size: 15px; font-style: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: auto; text-align: justify; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(252, 252, 252);">

序号 1 2 3 4 5 6 7 8 9
重量 1.75 1.92 1.59 1.85 1.83 1.68 1.89 1.70 1.79
序号 10 11 12 13 14 15 16 17 18
重量 1.66 1.80 1.83 2.05 1.91 1.76 1.88 1.83 1.79

</figure>

四、统计推断

统计原理

4.1 统计推断操作

4.1.1 单个总体均值的区间估计

  1. 例子:为研究在黄金时段中,即每晚8:30-9:00 内,电视广告所占时间的多少。美国广告协会抽样调查了20个最佳电视时段中广告所占的时间(单位:分钟)。请给出每晚8:30 开始的半小时内广告所占时间区间估计,给定的置信度为95%。

  2. 操作:进行探索分析

4.1.2 两个总体均值之差的区间估计(独立样本 T 检验)

  1. 例题:The WallStreet Journal(1994,7)声称在制造业中,参加工会的妇女比未参加工会的妇女的报酬要多2.5 美元。想通过统计方法,对这个观点是否正确给出检验。

    假设抽取了7位女性工会会员与8位非工会会员女性报酬数据。要求对制造业中参加工会会员的女性报酬与未参加工会的女性报酬平均工资之差进行区间估计,预设的置信度为95%。

  2. 操作:菜单——分析——比较均值——独立样本 T 检验

4.1.3 单个总体均值的假设检验 (单样本T检验)

  1. 例子:某种品牌的沐浴肥皂制造程序的设计规格中要求每批平均生产120 块肥皂,高于或低于该数量均被认为是不合理的,在由10 批产品所组成的一个样本中,每批肥皂的产量数据见下表,在0.05 的显著水平下,检验该样本结果能否说明制造过程运行良好?

  2. 操作:菜单——分析——比较均值——单样本 T 检验

4.1.4 两独立样本的假设检验(两独立样本T检验)**

  1. 例题:The WallStreet Journal(1994,7)声称在制造业中,参加工会的妇女比未参加工会的妇女的报酬要多2.5 美元。想通过统计方法,对这个观点是否正确给出检验。

    假设抽取了7位女性工会会员与8位非工会会员女性报酬数据。要求对制造业中参加工会会员的女性报酬与未参加工会的女性报酬平均工资之差进行区间估计,预设的置信度为95%。

  2. 操作:菜单——分析——比较均值——独立样本 T 检验

4.1.5 配对样本T检验

  1. 配对样本是对应独立样本而言的,配对样本是指一个样本在不同时间做了两次试验,或者具有两个类似的记录,从而比较其差异;独立样本检验是指不同样本平均数的比较,而配对样本检验往往是对相同样本二次平均数的检验。

  2. 配对样本T检验的前提条件为:第一,两样本必须是配对的。即两样本的观察值数目相同,两样本的观察值顺序不随意更改。第二,样本来自的两个总体必须服从正态分布。例如针对试验前学习成绩何智商相同的两组学生,分别进行不同教学方法的训练,进行一段时间试验教学后,比较参与试验的两组学生的学习成绩是否存在显著性差异。

  3. 例子:假设某校为了检验进行新式培训前后学生的学习成绩是否有了显著提高,从全校学生中随机抽出30名进行测试,这些学生培训前后的考试成绩放置于数据文件“学生培训.sav”中。

  4. 操作:菜单——分析——比较均值——配对样本 T 检验

4.2 实操小练习

1.某省大学生四级英语测验平均成绩为65,现从某高校随机抽取20份试卷,其分数为:72、76、68、78、62、59、64、85、70、75、61、74、87、83、54、76、56、66、68、62,问该校英语水平与全区是否基本一致?设α=0.05

2.分析某班级学生的高考数学成绩是否存在性别上的差异。数据如表所示:

某班级学生的高考数学成绩

<figure class="md-table-fig" contenteditable="false" cid="n588" mdtype="table" style="box-sizing: border-box; margin: -8px 0px 0px -8px; overflow-x: auto; max-width: calc(100% + 16px); padding: 8px; color: rgb(51, 51, 51); font-family: TeXGyreAdventor, 'Century Gothic', 'Yu Gothic', Raleway, STHeiti, sans-serif; font-size: 15px; font-style: normal; font-variant-caps: normal; font-weight: 300; letter-spacing: normal; orphans: auto; text-align: justify; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(252, 252, 252);">

性别 数学成绩
男(n=18) 85 89 75 58 86 80 78 76 84 89 99 95 82 87 60 85 75 80
女(n=12) 92 96 86 83 78 87 70 65 70 65 70 78 72 56

</figure>

  1. SPSS自带的数据文件world95.sav中,保存了1995年世界上109个国家和地区的部分指标的数据,其中变量“lifeexpf”,“lifeexpm”分别为各国或地区女性和男性人口的平均寿命。假设将这两个指标数据作为样本,试用配对样本T检验,女性人口的平均寿命是否确实比男性人口的平均寿命长,并给出差异的置信区间。(设α=0.05)

五、MAC SPSS 破解版安装

  1. SPSS中文版:https://pan.baidu.com/s/1eSOaAII (百度网盘下载,密码:w59n)

  2. 激活方法

上一篇下一篇

猜你喜欢

热点阅读