基础统计学(2) 集中趋势和分散度的测量

2019-08-03  本文已影响0人  Best_Scenery

1.04 Mode, median and mean

mode(众数):

集合中数量出现最多的数,一般用于用于定类变量和定序变量测量

一个集合中可能会有多个众数

median(中位数):

数量为奇数的集合中的元素顺序排列,排在中间的数;

3,3,4,5,6,8,9
以上集合的中位数为5

数量为偶数的集合中的元素顺序排列,排在中间的2个数的和除以2

3,3,4,5,6,8 
以上集合的中位数为 (4+5)/2=4.5

mean(平均数):
\overline x = \frac {\sum x} {n}
什么时候用哪种方法来测量集合的集中趋势呢? 根据测量级别

分类变量:

使用mode(众数)

定量变量:

使用median(中位数)或mean(平均数).

如果集合中有影响数值的异常值(特别大或特别小),或者是偏态分布,使用median(中位数)

其他时候用平均数

1.05 Range, interquartile range and box plot

这些指标是用来测量数据离散情况

range(范围误差): 最大值(max) - 最小值(min)

interquartile(四分距): IQR = Q3-Q1

IQR.jpg

上图是从基础统计学授课视频中截取出来的

其中Q2是集合的中位数,Q1是Q2左边数据集合的中位数,Q3是Q2右边数据集合的中位数

IQR(四分距)的值 = Q3-Q1的值

这里还涉及到异常值的计算,小于某值的数据(特别小的数据),大于某值的数据(特别大的数据)

小值的临界点 Q1 - 1.5*(IQR) , 小于该值的数被当做异常值(统计时忽略)

大值的临界点Q3 + 1.5*(IQR), 大于该值的数被当做异常值(统计时忽略)

box plot(箱型图):

箱型图很好的描述了数据的集中性、离散度以及异常值

BoxPlot.jpg

1.06 Variance and standard deviation(方差和标准差)

Variance(方差):
S^2 = \frac {\displaystyle \sum(x - \overline x)^2} {n-1}
Standard deviation(标准差): 表示数据与平均值的平均距离
S = \sqrt {\frac {\displaystyle \sum(x - \overline x)^2} {n-1} }
方差和标准差同样是用来测量数据的可变度的,他们数值越大,离散度、变化度就越大。

1.07 Z-scores(Z分数)

某个数与平均数的差有多少个标准差就是这个数的Z分数(Z-scores)
Z = \frac {x - \overline x} {s}

s 为标准差

集合中所有数据的Z-scores之和为0

贝尔曲线(正态)分布图:

bell_distrubution.jpg

上图特征:

若向右倾斜(右侧大量异常数据),或左倾斜(左侧大量异常数据)分布图满足以下特点

Z-score是对变量的一种标准化。让我们很容易地观察一个数据是普遍的还是异常的.

上一篇 下一篇

猜你喜欢

热点阅读