统计学读书呆鸟的Python数据分析

《你一定爱读的极简统计学》——统计学离我们并不远

2019-01-15  本文已影响91人  小雨读书写作

做指标管理、数据分析已经2年了,工作已经慢慢有了套路,但对于数据的应用基本上还处于各单位分析,而我来汇总的初级阶段。对于数据的有效性核查基本也只能靠直觉,靠熟悉程度,经验的经历是一定的,但成长的速度可真的是看不见的慢。为了让自己有提升专业能力,提高对数据的分析应用,本年的自我提升特别加入了专业的学习,而且特别制定了第一阶段90天数据分析能力提升入门计划,简单来说就要增加输入,同时以输出倒逼输入。

90天数据分析能力提升计划

输入:

专业的书籍——统计、数据分析

系统的培训——数说1-3季

工具的学习——透视表、仪表盘

公众号、微博

输出:

10篇读书笔记

1个改进项目

1项专项分析报告

指标仪表盘初稿


学习数据分析,统计学可谓是必学的知识之一。相对于其他的统计学书籍,各种正态分布、卡方分布、T分布的晦涩概念,《极简统计学》的内容没有那么的学术化,案例也贴合工作、生活,整个篇幅也就200页,并且每章后都有练习题,非常适合统计学初学者自学。下面记录一下自己读书的一些关键点及启示。

一、几个重要的统计概念

1.统计、概率的区别

统计是对过去事件的概述

概率是对于未来将发生事件的描述

2.样本——母体

样本就是我们平时可以获取的数据。

母体就是藏在少数样本后的庞大的全部数据。

3.平均值——就是直方图的平衡支点,主要作用是抵消偶然的数据分散、得出与实际值接近的值

直方图就是数据的分组频次,很直观,但不便于口头的交流,而且需要很大的空间,因此引入平均值。

样本均值——总体均值:观测的数据越多,样本均值接近总体均值的可能性越大。

电力系统里的平均值都是常见的是总体均值,如户均配变容量、客户平均停电时间、平均售电单价。

4.方差、标准差——主要作用是表明数据的分散和波动,搞清楚数据的分散程度。

引子:看看下面2组数据

100 200 平均值150

140 160 平均值150

这两组数据仅用平均值衡量,明显不合理。

再来一个书中的例子

所有引入方差、标准差来表明数据的分散和波动,通过标准差就能衡量是否是特殊的数据。以冲浪为例,平均值就是平静的海水平面,而标准差就是浪涌的激烈程度。

样本方差就是各样本偏差平方再取平均值。

二、重要应用:

1.如何比较股票的优劣呢?——夏普比率

电网企业的数据应用启示:可以计算各月售电量、停电时间;各设备类别的报废资产净值率、95598各类别投诉数量等分析指标的标准差、方差的指标,用于分析指标是否异常。

2.利用正态分布进行预测——所谓95%的置信区间

一般正态分布:平均值为μ,标准差为σ。(标准正态分布平均值为0,标准值为1。)

(1)数据x是平均值为μ,标准差为σ的正态分布时,95%的预测命中区间的不等式为

电网企业的数据应用启示:可以根据历史数据计算总体的均值和标准差,进而计算95%的置信区间,做为数据收集、数据清理时的有效性检查。

(2)已知母体为正态分布,标准差σ已知,平均值μ未知,由观察的数据来对μ进行母体的区间估计。(实际情况较难实现标准差σ已知,可能出现的是机器生产已经给定标准差)

电网企业的数据应用启示:可以用于精益项目改善的前后的现状检查及效果评估。可以用于零售行业的销售情况的测算、可以用于统计各人员的操作时间计算等等。

3.利用T分布估算总体均值

T分布称为“自由度n-1的t分布”。这个分布非常近似于正态分布,主用通过计算样本均值和样本方差,来估算总体的均值。t分布是推论统计中最自然、最实用、最常用的方法。

4.利用卡方分布估算总体方差

上一篇 下一篇

猜你喜欢

热点阅读