机器学习-算法理论

Variance in OLS estimator

2021-01-27  本文已影响0人  shudaxu

OLS假设

估计值的方差:variance of ols estimator:

\hat{\beta}\beta(真值)的估计值,其值是function of datas,并非一个constant estimate,所以也可以看作是一个随机变量,计算其mean 与 variance

误差的方差(Residual/Error Variance)[5](ie: variance of \epsilon or expectation of \hat{\sigma}^2)

根据定义 \epsilon \sim N(0,\sigma^2)\epsilon的variance为\sigma^2,但是我们无法知道\sigma^2的真实值。所以我们计算时会使用其估计值代替:\hat{\sigma}^2

Heteroscedasticity异方差性

1、对于异方差性,需要用GLS来拟合。
2、其实,我们也可以进行针对性的分析与处理。比如在业务中也可以采取一些针对性的措施。譬如不仅仅只参考预估的均值,也将其方差考虑在内。
3、异方差性状况下误差variance的估计:直觉上处理,特征命中数量量越多,variance越小[6]。还有一些思路在之前的文章中有讨论[7]

低估variance的影响

1、譬如在不均衡数据中对p(x| y =1)估计的问题:(此处1为数据量少的样本,在之前文章有讨论[8]以及[9],以及论文[10].)

2、直觉上,variance越大,越容易induce a wrong ranking

引申1 Linear Regression 中的 Uncertainty Estimate[7]

对于Linear Regression。
1、Homoscedasticity
\sigma^2是一致的,可以直接从样本中获取sigma的估计。
2、Heteroscedasticity
由于\sigma^2不是一致的,所以我们直觉上很容易想到可以同时建模conditional mean与conditional variance:p(\sigma^2| x)。[13][14]

引申2 Heteroscedasticity in Logistic Regression

由于Logit model的定义本身不包含error term \epsilon,所以Heteroscedasticity并无法在此定义。[15]

APPENDIX A

Refer:
[1]:https://link.springer.com/content/pdf/bbm%3A978-0-585-25657-3%2F1.pdf
[2]:相关证明:proof:https://en.wikipedia.org/wiki/Proofs_involving_ordinary_least_squares#Least_squares_estimator_for_.CE.B2
[3]:消除conditioning on X的证明:https://stats.stackexchange.com/questions/183986/derivation-of-ols-variance
[4]:变量维度m=1时的证明:
https://stats.stackexchange.com/questions/391254/standard-error-of-simple-linear-regression-coefficients
[5]:我们这里是residuals,因为\beta的真实值我们不知道,所以我们用的是估计值与观测值的偏差。
[6]:Ad Click Prediction: a View from the Trenches章节confidence estimate
[7]:其他Uncertainty Estimate的思路:https://www.jianshu.com/p/7f6597ed66dc
[8]:非均衡数据分类,采样:https://www.jianshu.com/p/c2a543d68e71
[9]:Ctr校准:https://www.jianshu.com/p/43403b2540e1
[10]:Logistic Regression in Rare Events Data
[11]:When is undersampling effective in unbalanced classification tasks?
[12]:Finite-sample efficient estimators:
https://en.wikipedia.org/wiki/Efficiency_(statistics)#:~:text=An%20efficient%20estimator%20is%20an,estimation%20errors%20of%20different%20magnitudes.
[13]:https://stats.stackexchange.com/questions/169499/heteroscedasticity-in-machine-learning-predictions
[14]:Heteroscedastic kernel ridge regression
[15]:Logit model相对于Linear的理解。Logit其实是对一个unobserved latent variable进行建模:log-odds(logit(p) = log\frac{p}{1-p})与independent variable是线性关系。log-odds其实就是概率p的一个变换,将其从[0,1]的区间映射到实数集上R,这个函数本身隐含了p属于[0,1)。类似地可见probit函数。
https://stats.stackexchange.com/questions/503092/heteroskedasticity-and-logistic-regression

[16]SST decomposition:https://en.wikipedia.org/wiki/Partition_of_sums_of_squares

[17] 关于variance of estimator更generalize的情况:https://stats.stackexchange.com/questions/60596/estimate-the-variance-of-mle
TODO fisher infomation:https://en.wikipedia.org/wiki/Fisher_information#:~:text=9%20References-,Definition,on%20the%20value%20of%20%CE%B8.

上一篇下一篇

猜你喜欢

热点阅读