Variance in GLM with penalty

2021-07-21 本文已影响0人 shudaxu

理解

estimator param的variance到底意味着什么，我们为什么需要研究它？当代工业界复杂模型（namely DNN）的variance如何，为何需要Shrinkage，bias&variance与模型复杂度，样本包含信息量的关系？

1、多次采样，估计值的离散程度。Sampling variability
其实 $\hat \beta$ 的Variance很好理解，就是如果我们从相同总体中，多次抽样（不同样本），然后做相同的估计流程，最后得到的参数 $\hat \beta_1,\hat \beta_2,\hat \beta_3...\hat \beta_n$ 的离散程度。如果这个离散程度越小，那么我们的估计越“稳定”，同时可以推导出相同输入时，outcome的估计 $\hat Y$ 也越“稳定”。
因此，我们可以用这个离散程度，来进行区间估计，获得 $\hat Y$ 的confidence Interval。
2、现代的大规模深度学习，往往有非常小的bias，但是有很大的variance。
Deep learning is an applied statistics with less emphasis on confidence intervals。
对于现代DNN，我们更注重于模型的拟合，表达能力。而选择性忽略了其在区间估计上的不足。
对于DNN来说，我们的目标往往是优化泛化误差： $generalization\ error = bias + variance + irreducible\ error$ ，即优化bias and variance simultaneously。
往往我们DNN超参的选择上，会选择使模型获得最小化泛化误差的参数。
手段：
a、改变模型复杂度。模型越复杂（即越flexible），越能获得更小的bias，同时variance可能会更大。（对于特别复杂，包含信息量很高的数据，我们往往需要很复杂的模型以获得更小的bias。）
b、调整Shrinkage Factor。shrinkage缩小了样本采样带来的变化（reduction in the effects of sampling variation），即降低了variance。常见的Lasso，Ridge，都是牺牲一定的bias，以达到更小的variance。我们的L1，L2penalties 都是种隐式的Shrinkage。
c、收集更多数据。更多的数据，能降低variance[3]。一般来说，只有我们的泛化误差largely be defined by variance的情况下，收集更多数据才有用。对于high bias model或者数据本身包含的信息量就很少的状况来说，提升数据也没有啥用。
评估与观测方法：
一般我们用learning curve来确定数据量，用cross validation来确定模型的超参。所以一般用cv error，train error一起做learning curve
纵坐标一般都是error（test error，train error，cv error）。横坐标epoch轮数/batch轮数，用于设定学习率，训练轮数。横坐标dataset size[]，用于决定数据量。横坐标shrinkage factor/model size，能得到与dataset size相似的图像，权衡bias&variance。
注意：由于我们sampling variability的存在，我们总是需要CV来验证。即使我们数据量非常大，严谨来讲通常也需要用CV，因为对于大量的数据，我们模型往往也很大，所以其flexibility 也很高，潜在的variance也是巨大的。
3、思考：
由于工业界数据的复杂性，真实因素的多样性，以及数据信息量的巨大性。因此复杂的模型才会大行其道。
在追求泛化误差最小为目标的情况下，我们只关心最终的泛化误差，而不会精准拆解出其中的bias或者varianc。但是当有偏Bias，或者Variance成为问题时，我们会进行优化，譬如如下场景：
a、在我们常见的EE问题中，大部分情况下，其中核心要解决的也是sampling variability，即降低variance
b、而我们需要去偏的场景，往往也是因为譬如“特征缺失“，以及某些特定条件导致的样本本身有偏。可能导致的系统性问题。具体可见：https://www.jianshu.com/p/7daf4789c24c【这里最后的讨论也可见，在prediction与inference任务中，对bias与variance有明显的偏好】

Ridge Regression[1][2]

1、有偏
$\mathbb E(\hat \beta) \neq \beta$
2、Bias随着 $\lambda$ 的增大而增大
$\mathbb E(\hat \beta) = \beta - \lambda (X^TX + \lambda I)^{-1} \beta$
3、方差小于OLS
$Var(\hat \beta_{OLS}) \geq Var(\hat \beta_{Ridge})$
4、方差随着 $\lambda$ 的增大而减小
TODO

Logistics Regression with l2 penalty

由于Fisher Information是对于无偏估计量，可以用 $\mathbb I^{-1}$ 来计算variance的下界（可见：https://www.jianshu.com/p/1dbd868e541a）。所以对于有偏估计来说，严格意义上来讲我们不能此来做variance的估计。
TODO
PS：由于上述的penalty都和 $\beta$ 大小有关，所以是量纲敏感的，因此我们对于这种模型通常都要做归一化

Refer
[1]，ridge regression中相关推导
Lecture notes on ridge regression

[2]
shrinkage 方向：
PCA与样本协方差：
https://zhuanlan.zhihu.com/p/132275334

[3]
Shrinkage estimator:
https://en.wikipedia.org/wiki/Shrinkage_(statistics)
sample variance 的估计量：选择除数以达到更小的variance
https://en.wikipedia.org/wiki/Mean_squared_error#Variance

Variance in GLM with penalty

理解

Ridge Regression[1][2]

Logistics Regression with l2 penalty

猜你喜欢

热点阅读