Variance in OLS estimator
OLS假设
-
简写为
为nxm的矩阵,n为样本数量,m为变量数量+1,为mx1的权重向量 -
的期望为0: ,方差为
-
这里是冗余参数,需要有如下假设:
at each value of *x*, the *y*-value of the dots has about the same [variance]:
1、同方差性:即每次观测的variance都一致,为,即homoscedasticity( [反义 Heteroscedasticity]):
2、无自相关性:,即不同观测之间的error没有线性关系(不一定独立,独立是充分非必要条件)(在某些特定的情况下,譬如时间序列估计中,有dependencies,serial correlation,则不成立,详见GLS)
-
OLS estimator:
residual of ith observation:,b为的candidate
最小化sum of residual的estimator被称之为 OLS estiamtor:
根据推导,最后OLS estiamtor for 最终的解析解为:
[推导见appendix A] -
OLS estimator的性质
1、方差分解:
PS: 这里有时候被写成Residual,有时候写成Error,但其实error与residual是有点区别的(这里严格上来讲是residual)
error(disturbance)是观测值与真实值(true)的偏差。(比如,u为总体均值)
residual是观测值与估计值(estimated)的偏差。(比如,为样本均值) -
Orthogonal Projection view
,每一行是一个observation的response
,每一行是一个observation的error项
,也被叫做design matrix,每一行是特征向量的转置
,参数向量
带入得到:
为称为Projection matrix,维度为
估计值的方差:variance of ols estimator:
为(真值)的估计值,其值是function of datas,并非一个constant estimate,所以也可以看作是一个随机变量,计算其mean 与 variance
-
期望:,即OLS estimator为\beta的无偏估计
-
方差:,由于未知,我们通常用其样本上的估计值来计算。
PS0:
是一个m维向量,是mxm的covariance matrix,对角线上的元素为每个beta的方差。
PS1:
其公式在直觉上也非常好理解,分子是模型预估y的,预估越准,residual越小,其值也越小,与estimator的var成正比。例如维度m=1,则对于,其分母为,即:1、样本数量越大,2、X分布越宽泛(variance大利于估计,如果x全部集中在一点,那么其值对y的估计没有帮助),越利于估计,所以与其值呈反比。(证明见[4],或者[2]中的Unbiasedness and variance of )
PS2:
注意,这里conditioning on 其实可以消除,证明见[3]
-
一种更直觉的计算方式[4]:对sample进行bootstrap,获得多个估计值,,对这组变量计算variance即可获得其variance的一个估计。
误差的方差(Residual/Error Variance)[5](ie: variance of or expectation of )
根据定义 ,的variance为,但是我们无法知道的真实值。所以我们计算时会使用其估计值代替:
-
因为,,根据方差的定义从样本获得方差的估计值:
-
再由推导:,即其期望的bias随n的增加而减小,所以为的一致性估计,但不是无偏估计。
Heteroscedasticity异方差性
1、对于异方差性,需要用GLS来拟合。
2、其实,我们也可以进行针对性的分析与处理。比如在业务中也可以采取一些针对性的措施。譬如不仅仅只参考预估的均值,也将其方差考虑在内。
3、异方差性状况下误差variance的估计:直觉上处理,特征命中数量量越多,variance越小[6]。还有一些思路在之前的文章中有讨论[7]
低估variance的影响
1、譬如在不均衡数据中对p(x| y =1)估计的问题:(此处1为数据量少的样本,在之前文章有讨论[8]以及[9],以及论文[10].)
- estimator自身的方差很大。
用样本均值估计总体均值时虽然是无偏(unbiased)的,但是其方差与样本数量成反比,为。即样本越小,这个estimator的variance就越大。estimator本身的variance太大,则本身就不有效(availability)【当然,从严谨的意义上来讲,应该去计算在有限样本条件下,是否能达到variance的最小值(minimum)[12]。这里我们跳出一下理论框架,直觉上理解一下:设想一下采集更多的样本,我们就可以获得更小的variance】 - 系统性地低估少样本数的数据本身dependent variable的方差:
导致对变量方差的估计偏小:MLE估计分母为n,在n很小的时候会对variance低估。导致会对p(y=1)低估。直觉上的理解可以详见[10]中的Parameter Estimation
2、直觉上,variance越大,越容易induce a wrong ranking
引申1 Linear Regression 中的 Uncertainty Estimate[7]
对于Linear Regression。
1、Homoscedasticity
是一致的,可以直接从样本中获取sigma的估计。
2、Heteroscedasticity
由于不是一致的,所以我们直觉上很容易想到可以同时建模conditional mean与conditional variance:。[13][14]
引申2 Heteroscedasticity in Logistic Regression
由于Logit model的定义本身不包含error term ,所以Heteroscedasticity并无法在此定义。[15]
APPENDIX A
-
先引出OLS estimator的几个特性:
residual:
1、
2、,这里为常数
3、,可以通过上述两个结论推广
一个简单的证明方法是凸函数最优解的FOC
即满足:
对的偏导可得:,除去常数得到第一个推论。
对求导可得:,除去常数得到第二个推论。
由于,对式子进行移项,,即可得,即第三个推论。 -
SST的decomposition推导:
SST=
根据上述特性的推论,可以得到后面两项=0,所以
类似推导见[16] -
换个角度理解SST分解:
由Homoscedasticity的定义,与无关,而是线性加权和,根据Cov的性质很容易得到
Refer:
[1]:https://link.springer.com/content/pdf/bbm%3A978-0-585-25657-3%2F1.pdf
[2]:相关证明:proof:https://en.wikipedia.org/wiki/Proofs_involving_ordinary_least_squares#Least_squares_estimator_for_.CE.B2
[3]:消除conditioning on X的证明:https://stats.stackexchange.com/questions/183986/derivation-of-ols-variance
[4]:变量维度m=1时的证明:
https://stats.stackexchange.com/questions/391254/standard-error-of-simple-linear-regression-coefficients
[5]:我们这里是residuals,因为的真实值我们不知道,所以我们用的是估计值与观测值的偏差。
[6]:Ad Click Prediction: a View from the Trenches章节confidence estimate
[7]:其他Uncertainty Estimate的思路:https://www.jianshu.com/p/7f6597ed66dc
[8]:非均衡数据分类,采样:https://www.jianshu.com/p/c2a543d68e71
[9]:Ctr校准:https://www.jianshu.com/p/43403b2540e1
[10]:Logistic Regression in Rare Events Data
[11]:When is undersampling effective in unbalanced classification tasks?
[12]:Finite-sample efficient estimators:
https://en.wikipedia.org/wiki/Efficiency_(statistics)#:~:text=An%20efficient%20estimator%20is%20an,estimation%20errors%20of%20different%20magnitudes.
[13]:https://stats.stackexchange.com/questions/169499/heteroscedasticity-in-machine-learning-predictions
[14]:Heteroscedastic kernel ridge regression
[15]:Logit model相对于Linear的理解。Logit其实是对一个unobserved latent variable进行建模:log-odds()与independent variable是线性关系。log-odds其实就是概率p的一个变换,将其从的区间映射到实数集上,这个函数本身隐含了p属于。类似地可见probit函数。
https://stats.stackexchange.com/questions/503092/heteroskedasticity-and-logistic-regression
[16]SST decomposition:https://en.wikipedia.org/wiki/Partition_of_sums_of_squares
[17] 关于variance of estimator更generalize的情况:https://stats.stackexchange.com/questions/60596/estimate-the-variance-of-mle
TODO fisher infomation:https://en.wikipedia.org/wiki/Fisher_information#:~:text=9%20References-,Definition,on%20the%20value%20of%20%CE%B8.