二项分布之区间估计与假设检验

2020-12-07 本文已影响0人 shudaxu

refer假设检验：https://www.jianshu.com/p/0daa59e481e3
其实假设检验本身，就是利用区间估计的手段，来检验假设的正确与否
区间估计

1、计算D的区间

已知theta，通过P(D|theta) 计算D的范围
【这里严格意义上来讲不算区间估计，因为这里并不是做参数估计的，但是其实本质上都是一样的，都是通过P(D|theta) or P(theta|D) 来获得区间上的概率，并计算出在一定概率范围（置信水平）下，变量属于的区间】
已知真实ctr，估计其进行n次曝光后，点击次数的区间分布：（已知分布，在总体均值u的基础上，对样本均值的区间估计）
具体例子：
比如，已知ctr=0.01，进行1000次曝光后，在95%置信区间内，点击数量为多少？

计算方式：
1、使用二项分布的高斯近似
2、95%置信区间即是2sigma区间。sigma^2 = np*(1-p)=9.9，sigma= 9.9 ^ 0.5
3、区间估计为ctr * n - 2sigma ~ ctr *n + 2sigma = [3.7, 16.2]

2、估计theta的区间

已知D，通过 P(theta|D)来估计theta的范围
已知在a广告曝光n次点击m次，求a广告真实ctr的区间估计：（已知样本，在样本概率p的基础上，对总体概率p的范围进行估计）
具体例子：
a广告，曝光1000次，点击10次，求真实ctr区间：
即：样本来自于B(1000，p)的一次抽样，要预估p的区间。

正态区间：

计算方式：
1、首先，在没有先验的情况下，我们使用MLE最大似然进行估计，计为estimator $\hat p$

2、其实对于X~B(n,p)来说，假设X中每个元素为Yi，则Yi～B(p)
设，在X的一次抽样数据当中，有n个Y。
所以estimator p_hat的variance可以推断如下：
$Var(\hat p) = Var(\frac {\sum y_i} n)$
$=\frac {np(1-p)}{n^2}$
$=\frac {p(1-p)}{n}$
PS：不过这里最主要的问题是，我们不知道真实的 $p$

3、根据2的var计算。假设 $\hat p$ 本身也服从高斯分布（？），我们可以通过u和sigma计算出其区间：(这里直接拿MLE的估计 $\hat p$ 代替了真实的 $p$ ，所以有较大误差，消除误差的方式也很简单，见wilson score interval）
$\hat p \pm z\sqrt \frac {\hat p (1-\hat p )}{n}$
正太区间，z=1.96的时候为95%置信度
关键点
PS：在对p的估计中，其实我们都是在做逼近（approximation），所以要满足np》5、n（1-p）》5才能用：
因为第一，我们用p_hat*(1-p_hat)/n只是方差的估计。第二，由于二项分布是离散的，而我们用的是连续的正态分布（normal distribution），所以其本身也只是来逼近
PS：
可以速记：这里等价于p～N(p_hat, p_hat(1-p_hat)/n)
这里我们其实可以验证一下，通过已知p的情况下，估计出d的范围，换算成已知d的情况下，推出p的范围，其期望值是一致的。【已知pCtr=0.01，在95%区间，1000次展现数据结果点击的范围为3.7～16.2。在已知10次点击，1000次展现的数据下，在95%区间，真实的pCtr区间为0.37%～1.62%】
这里成功次数X的方差：np(1-p)，p的方差：p*(1-p)/n，在形式上与样本均值方差与总体均值方差的关系类似，但是本质上不是一回事，也差了一个1/n，但推理方式倒是比较类似
对于小样本(np<=5)的情况，可以用wilson score来做近似，改善正太区间对小样本不友好的问题。

威尔逊区间

即：
z的定义：
$z = \frac {\hat p -p }{\sigma_n(p)}$
（这里其实也就是Wilson 区间与正太区间的差异，对于正太区间，其实是： $z = \frac {\hat p -p }{\sigma_n(\hat p)}$ ，注意分母不同，所以我们可以得到正太区间： $p=\hat p - z\sigma_n(\hat p)$ ）
方差的定义：
$\sigma_n(p)= \sqrt \frac {p(1-p)}{n}$
通过上述式子建立等式：
$(\hat p - p )^2= z^2 \frac {p(1-p)} n$

联立上述两公式，解得p即可：

image.png

PS：
核心：使用高斯分布或者别的分布来对二项分布进行逼近。
伯努利分布：X~Bern(p) ，或者：X～B(1,p)
二项分布（n重伯努利）：X～B(n,p)
高斯分布近似：X～N(np, np(1-p))，借此也可以推导出E=np，Sigma=np(1-p)
泊松分布近似：lambda=np

PSS：
计算样本均值的方差：
样本均值的方差S2=总体方差S1 / 样本容量n
【这里注意区分样本方差 与 样本均值方差】
【这里还有一个前提假设是，对于随机选取的样本Xi，其样本自身的方差与总体方差一致】
refer：https://www.zhihu.com/question/33394664
这个结论也非常符合直觉，即样本越大n，其均值约接近总体均值，即“样本均值的方差越小”。其实在t检验中，其分母就是样本均值的标准差。（样本内元素的sigma/样本容量n开根号）
$Var(\overline X) = Var(\frac {\sum X_i}{N})=\frac {N \times Var(X)}{N^2}=\frac {Var(X)}{N}$

PSS：
上述的其实都是频率学派的分析，那么我们怎么加入贝叶斯的思想。其实贝叶斯的关键就是，我们是否有一个前置的信念（prior belief）。譬如，我们对这个工厂生产的硬币已经有足够多的历史数据，获得了它们重量分布（p）的一个先验分布。那么我们便可以使用这个先验分布（prior）与该硬币的实验数据（evidence）一起推断出后验的分布（posterior）

Refer:
[1]关于二项分布的各种区间计算：
https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval

二项分布之区间估计与假设检验

1、计算D的区间

2、估计theta的区间

正态区间：

威尔逊区间

猜你喜欢

热点阅读