描述统计量数
一、母体与样本
母体:包含针对某一特定决策或调查的所有研究对象
样本:母体的子集
二、位置量数
提供了一个单数值的估计值,这个估计值以某种方式代表着数据集中的“中心”。包括:算术平均数、中位数、众数、中列数
算术平均数(平均值average):母体的平均值用μ来表示,Xˉ为样本均值
中位数(Median):数据从小到大排列时,规定中间数值的位置量数是中位数。
众数(mode.sngl):出现次数最多的那个观测值。
中列数:数据集中最大值与最小值之间的平均值。
三、离散量数
离散:数据的分散程度,也就是说,数据在数值上的分散(或者集中)。描述离散的统计学量数有:全距、方差、标准差
全距:一个数据集内最大数据与最小数据之差。(max-min)
四分位距(IRQ,或者中点分配):第一个四分位数与第三个四分位数之差,Q3-Q1,通常称为四分位距(IQR),也称为中点分配。
方差(Variance):在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。
方差越大,意味着以平均值为中心而扩散的数据越多,在观察值中也会出现更多的变异。
母体方差的计算公式为: (其中Xi是第i项,N是母体中的观察数目,)
样本方差的计算公式为:
标准差:方差的平方根。
母体方差的计算公式为(STDEV.P):
样本方差的计算公式为(STDEV.S):
切比雪夫定理:任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/㎡,其中m为大于1的任意正数。因此当m=2时,,至少有3/4(或75%)的数据位于平均数2个标准差范围内。当m=3时,至少有8/9(或89%)的数据位于平均数3个标准差范围内。这样的话,我们只要运用计算出来的平均值和标准差,便可以用这些数值来从根本上理解数据集的偏差。
经验规则:(s至标准差)
1,大约68%的观察值将位于距离平均值的1个标准差范围内,或者介于“x拔-s”或“x拔+s”之间。
2,大约95%的观察值将位于距离平均值的2个标准差范围内,或者介于“x拔-2s”或“x拔+2s”之间。
3,大约99.7%的观察值将位于距离平均值的3个标准差范围内,或者介于“x拔-3s”或“x拔+3s”之间。
工序能力指数(cp):表示工序能力对设计的产品规范的保证程度。评价加工工艺系统满足加工技术要求的程度。
cp=(规格上限-规格下限)\总偏差
标准化值(z~分数)(standardize):提供了观察值与平均均值之间的相对的距离测量指标,不受测量单位影响。数据集中的第i个观察值的z分数,公式:
Zi=(Xi-X拔)/s
变异系数(cv):提供了数据中离散程度的相对测量,CV=标准差/平均差
四、形态量数:
偏度:描述了缺乏对称的数据的分布形态
正偏度:分布形态向右侧“缩小”
负偏度:分布形态向左侧“缩小”
偏度系数(cs):测量观察值围绕平均值的不对称程度。
单峰:只有一个峰的直方图成为双峰
双峰:有两个峰的直方图称为双峰
峰度:直方图的尖峰度(即高而窄的形态)或平坦度(即矮而平坦的形态)
峰度系数(ck):测量母体的峰度
公式:
六、分类数据的描述统计量数
比例:正规的统计量数,用p表示。
八、关联量数
协方差:测量两个变量X与Y之间线性关联的量数。
相关:测量X与Y两个变量之间线性关联的量数,它并不取决于测量的单位,相关是通过相关系数来测量的。
相关系数(皮尔森积距相关系数):协方差除以标准差之积。
样本相关系数
九、极端值
极端值:数据中特别大或特别小的值,它们可以使我们从统计分析中获得的结果显著改变。
十、商业决策中的统计思维
统计思维:是一种学习的理念和不断优化的行动,它基于以下这些原因:
1、所有工作都在相互关联的流程组成的一个系统中发生。2、在所有过程中所有,偏差始终存在。3、更优异的绩效,来自于理解和减少偏差。