统计学(完善中)

2019-02-17  本文已影响0人  夜希辰

问:为什么要学习统计学?

答:数据分析的前提是对数据有感知,比如数据如何搜集?数据整体分布是怎样的?数据的平均值、最大值、最小值?故掌握统计学非常重要。

喜欢给大家分享我的成长,我是小梅子。这是我第二次复习统计学,距离初次学习已有一个月的时间,当然我也不负众望该忘记的都忘记了,脑袋里面只有一个印象概率、各种分布、以及一堆问题 ——

可能很多人和我一样,刚接触统计学就拿着一本《深入浅出统计学》开始学习。(PS:600多页呀,想想都崩溃。而且开篇还用了大量的篇幅介绍条形图、堆积图、直方图、均值中位数众数,总之会学习到怀疑人生)。

从18年9月自学到19年2月。除了收获知识外,还培养了自学能力吧,其实我们在学习新的知识的时候先要知道学习的框架,也就是学习目标吧,但因为是自学往往学习目标是不清楚的。比如我学习统计学我也问了学习重点,但学了之后脑袋还是懵的,今天在次复习的时候思路清晰很多。

最后想告诉大家——第一遍学习懵是正常的,别着急,所谓书读百遍其义自见,我们回头多看几遍就好了。

附上统计学大纲

统计概率:

1、描述性统计。分类数据、数值数据基础分析方法

2、概率。离散型概率的常见分布图、连续性概率常见分布图

3、估计。抽样、区间估计和线性回归

ps:很多人可能和我一样,觉得统计学只需要学习概率,然后学习概率后发现如果不做机器学习或者数据挖掘几乎用不上概率知识……于是就会迷茫、为什么要学习统计?为什么要学习概率?

如果作为入职数据分析行业,只需要学习描述性统计就OK,概率部分可以学习更高深算法的时候查漏补缺。但面试的时候又会问概率相关的知识,所以基础的概率分布我们还是要掌握。

我们学习新知识后都会存在疑问:我工作中可以用这些知识吗?用在什么地方?怎么用?好了下面说说统计学知识如何运用到数据分析上面。

-一、描述性统计。面对一份数据的时候如何分析,用哪些方法,从哪些角度去切入。总之统计是教会我们一种基础的数据分析方法。

二、概率。描述的是不确定性。数据挖掘和机器学习里面最后预测出来都是一种概率,所以概率论与我们模型学习有千丝万缕的关系。

概率与统计关系十分密切。大量的统计知识起源于数据理论,因此懂得盖伦出会让你的统计技术登上一个新的台阶。概率理论能帮助你进行预测,发现模式。

小结:统计学习目标,统计与数据分析间的关系就给大家介绍到这。下面是纯统计、纯概率知识,如果你对统计学已经掌握就不需要往下看啦~~~~~

主要内容
第一部分:描述性统计及常见指标

第二部分:概率论(连续性概率、离散型概率)

第三部分:抽样及区间估计

第一部分:描述性统计及常见指标

1、平均数(均值)。平均数容易受异常值的影响
2、中位数。数据按照升序排序,中位数为中间的数值
3、众数。数据中频数最大的数

分散性(四分位数)和变异性(方差标准差)的度量

4、全距。也叫极差,是度量数据集分散程度的一种方法,最大值 - 最小值。
5、四分位数。上四分位数、中位数、下四分位数
6、四分位距。即一个不受异常值影响的迷你距,上四分位数 - 下四分位数
7、上界 下界
8、百分位数
9、方差。方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值
10、标准差。标准差是度量分散性的一种方法,它描述了典型值与均值的距离。如果标准差越大,意味着数值往往距离均值较远。方差开平方根
11、标准分:距离均值标准差的个数。是对不同数据集的数值进行比较的一种方法,这些数据集的均值和标准差互不相同

第二部分:概率论(连续性概率、离散型概率)
1、概率。对事件发生可能性的一种表达,事件的概率总是介于0到1之间
2、文恩图
3、对立事件
4、互斥事件。事件A发生时,B无法发生。独立事件,A的结果对B的结果没有影响。相关事件,如果几个事件互相有影响,则为相关事件。
5、相交事件
6、事件的补。给定一个事件A。事件A的补是指所有不属于事件A 的样本点组成的事件
7、条件概率。事件A发生的可能性会受到另一个相关事件发生与否的影响
8、全概率公式。 根据条件概率计算一个特定事件的全概率。某一事件A的发生有各种可能的原因,每一原因都可能导致A 发生,故A发生的概率各个原因引起A发生的概率和
9、贝叶斯定理。计算逆条件概率的方法。全概率公式是贝叶斯定理的分母。

离散性概率分布

10、数学期望。随机变量的数学期望或均值是对随机变量中心位置的一种度量
11、随机变量的方差。
10、二项分布。

11、泊松分布

12、超几何分布

连续性概率分布

13、均匀概率分布
14、正态分布

15、标准正态分布

16、二项分布的正态近似
17、泊松概率分布的正态近似
17、指数概率分布

第三部分:抽样分布

统计需要数据,数据从何而来。如何在工作中收集数据,如何有效、正确、省时省力的收集数据
1、总体。是指所有的对象
2、样本。从总体中选取的一部分对象

上一篇下一篇

猜你喜欢

热点阅读