我的转行数据分析师专栏-2描述统计分析
导语:数据分析师日常工作接触离不开数据,甚至大部分工作时间都会面对数据所体现的各种问题,单纯看数据并没有具体作用,带着业务目的去挖掘分析才会让数据显得更有价值,就需要学习描述统计分析的一些知识。
本篇内容主要根据3大主题,去深入了解一下描述统计分析:
1、学习统计对我有什么意义
(1)首当其冲的是,转行数据分析师必要懂统计学原理:描述统计和推断统计
(2)职场、生活、娱乐、创业都离不开统计学的魅力,例如
你工作2年了,工资处于行业的什么水平;
你一生中每年摔倒的次数分布;
手机记录着你一天使用每个APP的分布时间(该时候提高一下学习软件占用的时间);
人的一生中平均所遇到的失败次数;
(3)进一步了解世界变化的原理,看世界的视角会有所变化
2、描述统计中常用描述数据集的指标(平均数、四分位数、标准差、标准分)
学习这些指标前,先来了解什么是描述统计学:
描述统计学是研究如何取得反映客观现象的数据 ,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征的一门学科。描述统计学内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
平均数
平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。
优势:在统计中算术平均数常用于表示统计对象的一般水平,它是描述数据集中位置的一个统计量。既可以用它来反映一组数据的一般情况、和平均水平,也可以用它进行不同组数据的比较,以看出组与组之间的差别。
局限性:易受极端值的影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现偏小数时,平均数会降低,例如:一间企业里,有老板,高层,中层和基层,如果算这间企业平均月薪水平在30000,高层月薪100000,而作为基层的你拿着4000月薪,直接跟企业平均工资来对比,并无太大意义;同时单纯看企业平均月薪,也体现不到一个平均水平情况
公式:
四分位数
四分位数也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数(Q2),因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数,Q1)和处在75%位置上的数值(称为上四分位数,Q3)
优势:与数据的排列位置有关,某些数据的变动对它没有影响;它是一组数据中间位置上的代表值,不受数据极端值的影响,常用于比较不同类别数据的整体情况和识别出可能的异常值。
局限性:作为一组数据的代表,可靠性比较差,因为它只利用了部分数据;
实例1(当项数为奇数时)-数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49,一共11项
Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9
Q1 = 15,Q2 = 40,Q3 = 43
实例2(当项数为偶数时)-数据总量: 7, 15, 36, 39, 40, 41
由小到大排列的结果: 7, 15, 36, 39, 40, 41,一共6项
数列项为偶数项时,Q2为该组数列中间两个数字和的平均值,Q1在第一与第二个数字之间, Q3在第五与第六个数字之间,
Q1 = 0.75*15+0.25*7 = 13,Q2 = (36+39)/2= 37.5,Q3 = 0.25*41+0.75*40 = 40.25.
实例3(当项数为偶数时)-分析就餐人员与餐馆的距离,数据单位为公里
标准差
简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
优势:告诉我们数据的波动性有多大,例如两个班的学生分数,标准差的大小能说明两个班的学生成权绩谁的波动大,也就是哪个班的学生成绩稳定些,标准差大的不稳定些,标准差小的稳定些
局限性:如果两个数据差别比较大,那么就无法比较,这时可以用变异系数可以弥补这个缺点
什么是变异系数呢?
当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。
标准差计算方式:
数据集:
平均值:
标准差
变异系数计算方式:
标准分
也叫z分数,是一种具有相等单位的量数。它是将原始分数与团体的平均数之差除以标准差所得的商数,是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。
数据集:
平均值:
标准差:
标准分:
( 为具体的某个数值)
最后一张图总结刚才所介绍4个指标的大致描述
3、熟悉数据集,尝试从数据集中分析哪些业务问题?
数据集链接:腾讯文档docs.qq.com
购买信息表:
(1)每个商品一级分类下,哪个二级分类的商品卖得更多
(2)每个分类下,爆款商品是哪一个(购买数量越大,就是爆款)
(3)每个一级分类、二级分类、商品,在不同时间段购买情况的分布
(4)每个商品一级分类下,二级分类的销售分布情况
(5)找出每个分类下的淡旺季购买情况
婴儿信息表:
(1)婴儿总体的男女占比
(2)婴儿不同年龄段的数量分布情况