数据分析基础|研究数据离散性
2020-02-10 本文已影响0人
70fa0b237415
如果我们想要知道一组数据的离散性,我们该怎么做呢?比较常用的是方差和标准差。除此之外我们还可以求出这组数据的5个统计量:最大值、最小值、3个四分位数,这5个数值也可以用来研究数据的离散性,将这5个数值画在图上就是我们常说的箱线图。
四分位数与箱形图:以中位数为基准来表示数据的离散程度
方差与标准差:以平均数为基数来表示数据的离散程度
箱线图的概念
箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较
一个典型的箱线图如下图所示:
箱线图理解箱线图的一个案例
同一数轴上,几批数据的箱形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便一目了然。在一批数据中,哪几个数据点出类拔萃,哪些数据点表现不及一般,这些数据点放在同类其它群体中处于什么位置,可以通过比较各箱形图的异常值看出。各批数据的四分位距大小,正常值的分布是集中还是分散,观察各方盒和线段的长短便可明了。每批数据分布的偏态如何,分析中位线和异常值的位置也可估计出来。
下图是两组学生成绩画出的箱线图,从这幅图中我们可以得到如下结论:
- A组学生成绩分布更均匀
- B组学生成绩比A组间隔更大
- B组中成绩在前50%的学生(方盒和线段长度很长),说明这部分学生分数差距很大,分布在40-100分之间
- B组中成绩在后50%的学生(方盒和线段长度很短),说明这部分学生分数差距较小,分布在30-40分之间