【statistics】描述数据的方法

2017-10-12  本文已影响0人  0号愚者

一些基本变量包括均值,众数,中位数,方差什么的就不说了,值得注意的就是样本标准差s计算时是除以n-1。还有样本和总体符号的不同(总体均值,标准差分别是μ,σ)

一.Chebyshev`s theorem(切比雪夫理论)

一般的图:

(x-s,x+s) little info

(x-2s,x+2s) 75% info

(x-3s,x+3s) 8/9 info

对于正态分布:

一道例题:

b,这道题是找出低于40的占比,也就是x-2s,在图上标出40的位置,求40之前的面积占比即可(用68%,95%)

偏差估计

Z-score:

z的值与占比关系及偏差:

(-1,1)  68% 

(-2,2) 95%

(-3,3) 99.7% 

|z|>2  probable outlier

|z|>3  outlier

例题:

题目大意是一个女人觉得自己工资水平低了,怀疑公司性别歧视,于是看看自己工资在男性工资中的位置,通过z-score计算来判断自己的值在这张分布图里是否属于异常值,若是,则 sex discrimination

算出来-3.5,是!

箱形图:

1.5到3之间:suspect outliers

在3之外: highly suspect outliers

上一篇 下一篇

猜你喜欢

热点阅读