大数据,机器学习,人工智能人工智能/模式识别/机器学习精华专题机器学习和人工智能入门

统计学6-抽样分布

2019-11-12  本文已影响0人  赵阳_c149

定义

抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布。样本估计量是样本的一个函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布【1】。以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。

也就是说,我们将抽样分布定义为样本统计量的分布。

有多种样本统计量:均值,方差,标准差。

抽样分布的一些特点

如果说我们有随机变量X,和方差 σ2,那么 \bar{X} 的分布 (样本平均数的抽样分布) 方差为: σ2 /n

抽样分布常用符号

我们经常使用希腊符号作为参数,使用小写字母作为对应统计量。有时候在文学作品中,你也会看到带有 "帽子" 的希腊字母,表示这是对应参数的估算。

下面这个表格提供了一些最常见的参数和对应统计量:


param_stat.png param_stat.png

抽样分布涉及的两个重要数学定理

大数法则

大数法则表示随着样本容量增加,样本平均数越来越接近总体平均数

但是我们首先如何确定样本平均数可以估计总体平均数呢?我们以后如何识别参数与统计量的其他关系呢?

下面是三种最常见的估计技巧:

最大似然估计
最大似然估计

最大似然估计(英語:maximum likelihood estimation,缩写为MLE),也称极大似然估计最大概似估计,是用来估计一个概率模型的参数的一种方法【4】。

上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理。

最大似然估计的做法是:首先选取似然函数(一般是概率密度函数)或概率质量函数),整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一,也不一定存在。与矩法估计比较,最大似然估计的精确度较高,信息损失较少,但计算量较大。

距估计(Method of Moments)
贝叶斯估计

贝叶斯估计(Bayesian estimation)是利用贝叶斯定理【7】结合新的证据及以前的先验概率,来得到新的概率。它提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。

贝叶斯估计将后验概率(考虑相关证据或数据后,某一事件的条件机率)推导为先验概率(考虑相关证据或数据前,某一事件不确定性的机率)及似然函数的共同作用结果。贝叶斯推断根据贝叶斯定理计算后验概率:

B_F.png
其中,
  1. | 表示将某事件成立作为条件。
  2. H表示假说,其机率可能会受实验数据(以下会称为证据)影响。一般来说会有许多互相矛盾的假说,任务是要确认哪一个假说可能性最高。
  3. E表示证据。证据对应新的数据,也就是还没用来计算先验概率的数据。
  4. P(H),先验概率,是观察到数据E(目前证据)之前,假说H的机率。
  5. P(H|E),后验概率,是在给定证据E之后,假说H的机率,是希望求得的资讯,也就是在有目前证据时,假说H的机率。
  6. P(E|H)是假定H成立时,观察到E的机率。在H不变时,这是E的函数,也是似然函数,指出在给定假设下假说和证据的相容程度。似然函数是证据E的函数,而后验概率是假说H的函数。
  7. P(E)有时会称为边缘似然率。此系数对所有可能的假说都是定值,因此在判断不同假说的相对机率时,不会用到这个系数中。

针对不同的H数值,只有P(H)P(E|H)(都在分子)会影响P(H|E)的数值。假说的后验概率和其先验概率(固有似然率)和新产生的似然率(假说和新得到证据的相容性)乘积成正比。

贝叶斯估计最关键的点是可以利用贝斯定理结合新的证据及以前的先验机率,来得到新的机率(这和频率论推论相反,频率论推论只考虑证据,不考虑先验机率)。

而且贝叶斯估计可以迭代使用:在观察一些证据后得到的后设机率可以当作新的先验机率,再根据新的证据得到新的后设机率。因此贝斯定理可以应用在许多不同的证据上,不论这些证据是一起出现或是不同时出现都可以,这个程序称为贝叶斯更新(Bayesian updating)。

中心极限定理

中心极限定理表示样本容量足够大,平均数的抽样分布越接近正态分布。
中心极限定理 实际上应用于这些常见的统计量中:

推论统计

推论统计在于使用我们收集的数据(样本)对更大的总体数据(总体)得出结论。

使用推论统计要求我们对准确代表感兴趣的总体进行取样。

收集数据的常见方式是调查。然而,根据提问的问题和提问的方式,调查会带有偏见性。这是解决项目时你应该想到的话题。

推论统计涉及的术语

自助法 (bootstrap)

简介

Bootstrap方法是非常有用的一种统计学上的估计方法,是斯坦福统计系的教授Bradley Efron【9】在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法。【8】
Bootstrap是可进行统计量区间估计的统计方法,也称为自助法。

Why Bootstrap

我们往往无法知道总体的参数,因此我们通过抽样来试图对总体的参数进行估计。为此,一种方法是不停的对总体不停的取样,来得出样本统计量的分布。但是,这显然是不可能的。还有两种方法能派上用场:

  1. 对总体分布的形状作出假设。正态,贝努力,等等。
  2. 充分利用样本信息。

对于#1,如果你能确定假设成立,即整体服从某一种分布,那么只要计算量在可接受的范围内,就没有问题。比方说,总体服从正态分布,那么样本来自总体,也能以正态分布进行描述,抽样分布为正态分布。然而,当总体分布未知的时候,只能以Bootstrap方法进行分析。

我们有理由采用#2,因为样本是我们仅有的也是最好的关于总体的信息,而且,大多数随机抽取的样本同总体非常的相似。【10】

实例

Bootstrap是放回抽样。这里以一个🌰来描述其基本过程:

假设我们有两个金融资产X和Y,我们现在想要合理配置这两个资产,使得其资产组合的风险最小。也就是找到一个α,使得Var(αX + (1-α) Y)最小。这个问题几十年前马尔可维茨已经在其投资组合理论里给出了解答,最优的α表达式如下:

bt_1.jpg
但是现实生活中实际上我们并不知道2,2以及σXY的值,故而只能通过X和Y的一系列样本对其进行估计。并用估计值2,2以及XY代替2,2以及σXY的值插入公式:
b_t_2.jpg
所以我们唯一的任务就是合理地估计2,2以及XY,传统方法中我们一般会考虑直接使用样本方差(sample variance)去估计2,2以及σXY的值,然而自从有了Bootstrap之后,我们有了另一种方法与途径,可以更好地去做估计总体的分布特性,即不仅可以估计α,还可以估计α**的方差、中位数等值。

步骤

  1. 在原有的样本中通过重抽样抽取一定数量(比如100)的新样本,重抽样(Re-sample)的意思就是有放回的抽取,即一个数据有可以被重复抽取超过一次。
  2. 基于产生的新样本,计算我们需要估计的统计量。
    在这例子中,我们需要估计的统计量是α,那么我们就需要基于新样本的计算样本方差、协方差的值作为σ_X2,σ_Y2以及σXY,然后通过上面公式算出一个\hatα
  3. 重复上述步骤n次(一般是n>1000次)。
    在这个例子中,通过n次(假设n=1000),我们就可以得到1000个αi。也就是α1,α2,...,α1000
  4. 最后,我们可以计算被估计量的均值和方差:


    b_t_3.jpg
b_t_4.png

我们发现,通过Bootstrap方法我们竟然不仅可以估计α的值( 这点普通方法也可以很容易做到),还可以估计α的accuracy也就是其Standard Error。这可是只利用原有的样本进行一次估计所做不到的。那么Bootstrap对于分布特性的估计效果究竟如何呢?请看下图:


b_t_5.png

左边是真实的α分步,右边则是基于bootstrap方法得到的1000个α的分布,可以看到,二者是比较相近的,也就是说Bootstrap有着不错的估计效果。而且当重复次数增多,Bootstrap的估计效果会更好。
不仅是α的标准差,如果我们想要估计α的中位数、分位数等统计量,也是可以通过Boostrap方法做到的,其整个流程可以用下面一张图诠释:


b_t_6.png

本质上,Bootstrap方法,是将一次的估计过程,重复上千次上万次,从而便得到了得到上千个甚至上万个的估计值,于是利用这不止一个的估计值,我们就可以估计α均值以外的其他统计量:比如标准差、中位数等。

Python的random.choice方法

在 python 中使用 random.choice 实际上是自助法。无论选择多少次,我们数据集中任何数字的概率保持不变。

【1】抽样分布
【2】似然函数
【3】贝叶斯法则
【4】最大似然估计
【5】卡尔·皮尔逊
【6】Method of Moments
【7】统计学5-贝叶斯法则 : 关于先验概率,后验概率,条件概率的概念及他们之间的关系,可以参考这篇文章。
【8】Bootstrap详解:本文的例子来自于这篇文章。
【9】布拉德利·埃弗龙
【10】https://stats.stackexchange.com/questions/26088/explaining-to-laypeople-why-bootstrapping-works

上一篇 下一篇

猜你喜欢

热点阅读