数据分析中的统计学知识

2021-04-20  本文已影响0人  风一样的我1

第三次复习概率论与数理统计,希望理解比之前更深刻。
仅代表本人理解,如果错误欢迎指出。

一、大数定理
直观地理解是:当样本的容量足够大(或者实验的次数足够多),样本的均值收敛于总体的均值。
投硬币实验中,设置随机变量X,当投到正面时,X=1,投到反面时X=0。做10次实验,样本的均值可能为0-1之间的任意值,但是做1000、10000次实验,X的期望值将接近于0.5。

二、三大分布

  1. 二项分布
    独立重复n次实验,实验结果只有两种且互斥,假设为成功和失败。成功的概率为p,失败的概率为1-p。则n次实验中n次成功的概率为:


    image.png
  2. 泊松分布
    可以由二项分布推导而来,当实验次数n足够大,p非常小时(n>=20,p<=0.5),二项分布可以近似为泊松分布。
    举例来说:单位时间内的车流量可以看作一种泊松分布。假设我们通过观察知道一个小时内的平均车流数:lamda,求一小时内车流量为k的概率。
    假设一种情况:路上一分钟内最多只能有一辆车通过,那么在每一分钟内,都可以看成一次伯努利实验(结果只有一辆车通过和没有车通过两种可能),那么60次实验相当于一个n=60的二项分布。但是我们的假设可能不太符合现实,一分钟内可能有多辆车通过(n太小),为了满足二项分布的性质,我们确定一个极小的时间段,使得在该时间段内,最多只有一辆车通过(即n取得特别大),此时单位时间内出现一辆车的p值=lamda\n非常小。套用二次项的公式再求极限,可以得到泊松分布的公式:


    image.png
  3. 正态分布
    自然界中最多的一种分布,二项分布n较大时,可近似为正态分布的形状。二项分布和泊松分布都是离散分布,而正态分布是一种连续分布。

三、假设检验

  1. 两类错误
  1. 中心极限定理
    非常重要的一个定理,通俗来说:不论总体服从什么分布,当抽样的样本足够大时,样本的均值服从正态分布,均值为样本均值,标准差为总体标准差除以根号n(n为样本容量)。 当样本容量n大于30时,可以认为是大样本。
  2. α值和p值
  1. 实际如何应用:ABtest
    硬骨头,待填坑。


    image.png

四、参数估计

  1. 参数估计的含义?
    通过样本的信息去估计总体的参数
    a. 介绍下矩估计?
    根据大数定律,当样本容量足够大时,样本的k阶原点矩收敛于总体的k阶原点矩,因此可用此来估计总体分布的参数。使用该方法,我们不需要知道总体的分布。
    b. 极大似然估计
    原理:如果在一次试验中某件事发生了,我们认为这件事发生的概率是足够大的。基于此,我们使用样本观测到的值构造似然函数,似然函数代表着样本观测值出现的概率,既然它发生了,我们认为这件事是个大概率事件,因此使用似然函数的最大值近似其发生的概率,从而求得参数的估计值。
    c. 如何评价估计的好坏?
    无偏性:估计量是一个随机变量,由于样本的不同其取值也不同。我们希望估计量的均值等于参数的值,意为估计量的取值在参数值附近摆动,称这样是无偏的。
    有效性:我们希望估计量的方差尽可能小,即该估计量取值比较稳定
    一致性:依据大数定律得出,当样本容量足够大时,估计量的取值收敛于参数值。
    b.区间估计
    使用置信区间和置信度来估计参数。置信区间是参数的估计范围,置信度是参数落入该区间的概率。和假设检验相似,首先需要构造统计量(根据总体分布、样本容量、已知参数等),然后构造使得统计量落入置信度为1-alpha的置信区间,从而求出参数的置信区间。
  2. 参数估计与假设检验的不同?
    相同:两者都是从样本估计整体特征值的方法。
    不同:但是推断估计的角度不同。参数估计在参数未知的情况下,用样本去估计总体的参数值;但是假设检验先假设参数是某个值,然后再用样本的信息去估计该假设是否成立。

五、

上一篇 下一篇

猜你喜欢

热点阅读