二项分布之区间估计与假设检验

2020-12-07  本文已影响0人  shudaxu

refer假设检验:https://www.jianshu.com/p/0daa59e481e3
其实假设检验本身,就是利用区间估计的手段,来检验假设的正确与否
区间估计

1、计算D的区间

已知theta,通过P(D|theta) 计算D的范围
【这里严格意义上来讲不算区间估计,因为这里并不是做参数估计的,但是其实本质上都是一样的,都是通过P(D|theta) or P(theta|D) 来获得区间上的概率,并计算出在一定概率范围(置信水平)下,变量属于的区间】
已知真实ctr,估计其进行n次曝光后,点击次数的区间分布:(已知分布,在总体均值u的基础上,对样本均值的区间估计)
具体例子:
比如,已知ctr=0.01,进行1000次曝光后,在95%置信区间内,点击数量为多少?

2、估计theta的区间

已知D,通过 P(theta|D)来估计theta的范围
已知在a广告 曝光n次点击m次,求a广告真实ctr的区间估计:(已知样本,在样本概率p的基础上,对总体概率p的范围进行估计)
具体例子:
a广告,曝光1000次,点击10次,求真实ctr区间:
即:样本来自于B(1000,p)的一次抽样,要预估p的区间。

正态区间:
威尔逊区间

即:
z的定义:
z = \frac {\hat p -p }{\sigma_n(p)}
(这里其实也就是Wilson 区间与正太区间的差异,对于正太区间,其实是:z = \frac {\hat p -p }{\sigma_n(\hat p)},注意分母不同,所以我们可以得到正太区间:p=\hat p - z\sigma_n(\hat p)
方差的定义:
\sigma_n(p)= \sqrt \frac {p(1-p)}{n}
通过上述式子建立等式:
(\hat p - p )^2= z^2 \frac {p(1-p)} n

联立上述两公式,解得p即可:


image.png

PS:
核心:使用高斯分布或者别的分布来对二项分布进行逼近。
伯努利分布:X~Bern(p) ,或者:X~B(1,p)
二项分布(n重伯努利):X~B(n,p)
高斯分布近似:X~N(np, np(1-p)),借此也可以推导出E=np,Sigma=np(1-p)
泊松分布近似:lambda=np

PSS:
计算样本均值的方差:
样本均值的方差S2=总体方差S1 / 样本容量n
【这里注意区分样本方差样本均值方差
【这里还有一个前提假设是,对于随机选取的样本Xi,其样本自身的方差与总体方差一致】
refer:https://www.zhihu.com/question/33394664
这个结论也非常符合直觉,即样本越大n,其均值约接近总体均值,即“样本均值的方差越小”。其实在t检验中,其分母就是样本均值的标准差。(样本内元素的sigma/样本容量n开根号)
Var(\overline X) = Var(\frac {\sum X_i}{N})=\frac {N \times Var(X)}{N^2}=\frac {Var(X)}{N}

PSS:
上述的其实都是频率学派的分析,那么我们怎么加入贝叶斯的思想。其实贝叶斯的关键就是,我们是否有一个前置的信念(prior belief)。譬如,我们对这个工厂生产的硬币已经有足够多的历史数据,获得了它们重量分布(p)的一个先验分布。那么我们便可以使用这个先验分布(prior)与该硬币的实验数据(evidence)一起推断出后验的分布(posterior)

Refer:
[1]关于二项分布的各种区间计算:
https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval

上一篇 下一篇

猜你喜欢

热点阅读