SPSS绘制统计图
1 直方图与茎叶图
直方图
直方图用于表示连续性变量的频数分布。在直方图中以各矩形(直条)的面积表示各组段的频数(或频率),各矩形的面积总和为总频数(=1)
具体操作:
(1)图形->图表构建器
(2)把“直方图”拖拽到画布,把变量“交易量”拖拽到横轴框
(3)在元素属性中勾选正态曲线,选择“应用”。如图:
图表框
生成的结果如下:
输出结果
由图可知,交易量的分布与正态曲线严重不符,因此不是正态分布。
茎叶图
茎叶图实际是一种文本化的图形,在样本量较少的情况下比直方图更精确。
步骤:分析->描述统计->探索
得到茎叶图如下:
输出的Word文档截图
第一列为频数;第二列为茎,表示实际观察值除以图下方的茎宽(Stem Width)后的整数部分;第三列为叶,表示实际观察值除以茎宽后的小数部分。
PS:
样本少时使用茎叶图效果非常明显
2 箱图
也称箱线图,和直方图一样用于描述连续变量的分布情况。有时用来进行异常值的筛选。
具体操作和直方图相似,在图库中选择箱图组即可。如下图:
输出结果为:
输出结果
箱体中间的粗线表示当前变量的中位数,方框的两端分布表示上、下四分位数(即25%和75%百分位数)显然,方框中包含了50%的样本数据。
方框外的上、下2个细线分别表示除去异常值以后的最大、最小值。
在箱图中,与方框上下界的距离超过1.5倍四分位间距的都被定义为异常值,以“○”表示;超过3倍的被定义为极端值,以“*”表示。
3 P-P图和Q-Q图
P-P图和Q-Q图常用来判断变量是否符合正态分布,但实际上还可以用来考察其他分布,常见的有Beta分布、指数分布、伽马分布、半对数分布、拉普拉斯分布、Logistics分布、对数正态分布、帕累托分布、t分布、weibull分布、标准正态分布等共13种分布。
P-P图
从P-P图中可以看出变量的实际累积概率与其假定理论分布累积概率的符合程度,从而考察数据是否符合所考察的分布类型。
步骤:分析->描述统计->P-P图,其对话框如下:
P-P图对话框
(1)检验分布下拉列表:默认的“常规”即正态分布。
(2)“转换”框组:用于考察变换后的数据分布情况。
(3)“比例估计公式”框组:即“概率估计公式”,用于估计样本累积分布的具体算法,一般不需要更改。
结果如下图:
左图P-P图2个坐标轴分别表示了理论累积概率和实际累积概率,如果服从正态分布,数据点应和对角线基本重合。可见本文中的例子与理论直线(对角线)有比较明显的差异。
右图去势P-P图反映的是分布的残差图,如果服从正态分布,数据点应均匀的分布在Y=0这条直线上下。由图可知,其残差最高值甚至达到了0.2>>0.05。
由此判断此组数据不符合正态分布。
Q-Q图
Q-Q图的基本原理与P-P图相似。但P-P图比较的是两者的累积概率分布,而Q-Q图则是根据变量的实际百分位数与理论百分位数进行绘制的。通俗地讲,Q-Q图的适用条件更宽松,结果也更稳健。但不能依据经验判断,因此应用较少。
由于P-P图与Q-Q图的操作方式和结果阅读方式几乎完全一样,由此仅简略放图,不再进行说明:
步骤:分析->描述统计->Q-Q图
Q-Q图对话框 输出结果
4 控制图与Pareto图
控制图
控制图是用来分析和判断生产工序是否处于稳定状态的一种统计图。需要确保数据正态分布。
原理:当生产过程只受随机因素的影响,产品的质量特征的平均值和变异都基本保持稳定时,称之为受控状态。
步骤:分析->质量控制->控制图
控制图对话框
由图可以看出,SPSS提供了全面的控制图种类,具体用法如下:
-
X条形图、R、s
均数、全距和标准差控制图。本选项包含两种组合控制图,即均数—全距组合控制图和均数—标准差控制图。前者将在图中显示每个亚组测量值的均值和全距。当亚组内例数较少(少于10),不易计算标准差时选用这种图。例数较大时推荐后者。 -
个体、移动全距
均数的计算要求每个亚组中的案例数大于1,当各亚组中均只有一个案例时,就只能采用这里的个体值移动全距图。移动全距图反映数据波动情况的改变。 -
p、np
不合格品率、不合格品数控制图。p显示每个亚组里不一致的记录所占的比例。但是由于计算比率需要进行除法运算,因此在样本量相同的情况下采用np图比较方便。np图显示数量。 -
c、u
缺陷数、单位缺陷数控制图。u显示指定单位范围内出现的缺陷数目。当样品的的大小保持不变时可用c控制图。当样品的大小变化时则应换算为平均每单位的缺陷后再使用u控制图。
示例:(以个体值控制图为例)
控制图主对话框
得到结果:
输出结果
Pareto图
又称排列图,认为20%的原因造成80%的问题。目的是直观地找出主次因素。
步骤:分析->质量控制->帕累托图
Pareto图对话框