大数据数据蛙数据分析每周作业大数据 爬虫Python AI Sql

20181213总结,统计学汇总02

2018-12-14  本文已影响18人  夜希辰

20181213,今天是连续第三天总结,前两天都是凌晨2点睡,6点起床。累……不想写总结,想明早写总结,甚至想总结断了就断了。感谢现在努力的自己!加油

现在有个问题:开始我觉得工具很重要,现在我觉得业务,分析思维很重要。数据分析是怎么发展过来的,历史是什么?现状是什么?为什么从excel的使用到编程使用?为什么它现在这么火?

《统计学继续总结》,未待完续……

统计学业务分析,

三、连续性随机变量

1、均匀概率分布

定义:测量值某一范围中各处出现的机会一样

2、正态分布

定义:若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

特征:

A、正态分布每个分布因均值和标准差这两个参数的不同而不同

B、正态曲线的最高点在均值处达到

C、正态分布是对称的

D、标准差决定曲线的宽度和平缓程度

E、正太随机变量的概率由正态曲线下的面积给出

标准分:

二项概率的正态近似

当实验次数很大,np >= 5 并且nq > = 5,可使用正态分布近似计算。注意修正

泊松分布的正态近似

注意连续性修正

四、统计抽样

目的:如何通过总体了解样本,如何通过样本了解总体

定义:个体是搜集数据的基本单位;总体是所有感兴趣的个体的集合;样本是总体的一个子集。我们选取样本是为了搜集推断所需要的证据,并且回答关于总体的研究问题。

A、 如何搜集数据(无偏样本)

B、 如何通过样本了解总体,如何通过总体了解样本(如何用样本、分析样本)

A、 如何搜集数据(无偏样本)

1、 简单随机抽样:既随机选择抽样单位并形成样本,包括重复抽样和不重复抽样。具体方式抽签或使用随机编号生成器(我们提到的简单随机抽样假定时去放回的)

理解:从容量为N的有限总体中抽取一个容量为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽中,则称改样本为简单随机样本

2、 分层抽样:既将总体划分为几个组,或者叫做几个层,组或层中的单位都很相似,每一层都尽可能与其他层不一样。分好层之后,就对每一个层执行简单随机抽样

3、 整群抽样:既将总体划分为几个群,每个群尽量与其他群相似,可通过简单随机抽样抽取几个群然后用这些群中的每一个抽样单位形成样本

4、 系统抽样:既选择一个数字K,然后没到第K个抽样单位就抽一次

B、如何通过样本了解总体,如何通过总体了解样本(如何用样本、分析样本)

1、点估计

2、样本均值的抽样分布(均值、方差)

样本均值的抽样分布是所有的样本均值形成的分布,即μ的概率分布。

2.1中心极限定理

样本均值的抽样分布在形状上却是对称的。随着样本量n的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值μ,方差为总体方差的1/n。这就是中心极限定理

2.2 t分布

如果总体不是正态分布,当n为小样本时(通常n<30),样本均值的分布则不服从正态分布,服从t分布

3、样本比例的抽样分布(均值、方差)

五、估计

1. 误差界限(Margin of error)

2. 置信度(Confidence level)

我们有百分之多少确信总体中的值落在一个特定范围内;

一般情况下,取95%的置信度就可以;

3. 置信区间(Confidence Interval)

明日计划

1-统计学

2-学习计划

睡着了,哈哈,

上一篇 下一篇

猜你喜欢

热点阅读