数据分析基础|研究数据离散性

2020-02-10  本文已影响0人  70fa0b237415

如果我们想要知道一组数据的离散性,我们该怎么做呢?比较常用的是方差标准差。除此之外我们还可以求出这组数据的5个统计量:最大值、最小值、3个四分位数,这5个数值也可以用来研究数据的离散性,将这5个数值画在图上就是我们常说的箱线图。
四分位数与箱形图:以中位数为基准来表示数据的离散程度
方差与标准差:以平均数为基数来表示数据的离散程度

箱线图的概念

箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较

一个典型的箱线图如下图所示:

箱线图

理解箱线图的一个案例

同一数轴上,几批数据的箱形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便一目了然。在一批数据中,哪几个数据点出类拔萃,哪些数据点表现不及一般,这些数据点放在同类其它群体中处于什么位置,可以通过比较各箱形图的异常值看出。各批数据的四分位距大小,正常值的分布是集中还是分散,观察各方盒和线段的长短便可明了。每批数据分布的偏态如何,分析中位线和异常值的位置也可估计出来。

下图是两组学生成绩画出的箱线图,从这幅图中我们可以得到如下结论:

两组学生成绩箱线图

参考链接

  1. https://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE
  2. https://baike.baidu.com/item/%E7%AE%B1%E5%BD%A2%E5%9B%BE
  3. 《写给所有人的极简统计学》
上一篇下一篇

猜你喜欢

热点阅读