Variance in GLM with penalty
理解
estimator param的variance到底意味着什么,我们为什么需要研究它?当代工业界复杂模型(namely DNN)的variance如何,为何需要Shrinkage,bias&variance与模型复杂度,样本包含信息量的关系?
-
1、多次采样,估计值的离散程度。Sampling variability
其实的Variance很好理解,就是如果我们从相同总体中,多次抽样(不同样本),然后做相同的估计流程,最后得到的参数的离散程度。如果这个离散程度越小,那么我们的估计越“稳定”,同时可以推导出相同输入时,outcome的估计也越“稳定”。
因此,我们可以用这个离散程度,来进行区间估计,获得的confidence Interval。 -
2、现代的大规模深度学习,往往有非常小的bias,但是有很大的variance。
Deep learning is an applied statistics with less emphasis on confidence intervals。
对于现代DNN,我们更注重于模型的拟合,表达能力。而选择性忽略了其在区间估计上的不足。
对于DNN来说,我们的目标往往是优化泛化误差:,即优化bias and variance simultaneously。
往往我们DNN超参的选择上,会选择使模型获得最小化泛化误差的参数。
手段:
a、改变模型复杂度。模型越复杂(即越flexible),越能获得更小的bias,同时variance可能会更大。(对于特别复杂,包含信息量很高的数据,我们往往需要很复杂的模型以获得更小的bias。)
b、调整Shrinkage Factor。shrinkage缩小了样本采样带来的变化(reduction in the effects of sampling variation),即降低了variance。常见的Lasso,Ridge,都是牺牲一定的bias,以达到更小的variance。我们的L1,L2penalties 都是种隐式的Shrinkage。
c、收集更多数据。更多的数据,能降低variance[3]。一般来说,只有我们的泛化误差largely be defined by variance的情况下,收集更多数据才有用。对于high bias model或者数据本身包含的信息量就很少的状况来说,提升数据也没有啥用。
评估与观测方法:
一般我们用learning curve来确定数据量,用cross validation来确定模型的超参。所以一般用cv error,train error一起做learning curve
纵坐标一般都是error(test error,train error,cv error)。横坐标epoch轮数/batch轮数 ,用于设定学习率,训练轮数。横坐标dataset size[],用于决定数据量。横坐标shrinkage factor/model size,能得到与dataset size相似的图像,权衡bias&variance。
注意:由于我们sampling variability的存在,我们总是需要CV来验证。即使我们数据量非常大,严谨来讲通常也需要用CV,因为对于大量的数据,我们模型往往也很大,所以其flexibility 也很高,潜在的variance也是巨大的。 -
3、思考:
由于工业界数据的复杂性,真实因素的多样性,以及数据信息量的巨大性。因此复杂的模型才会大行其道。
在追求泛化误差最小为目标的情况下,我们只关心最终的泛化误差,而不会精准拆解出其中的bias或者varianc。但是当有偏Bias,或者Variance成为问题时,我们会进行优化,譬如如下场景:
a、在我们常见的EE问题中,大部分情况下,其中核心要解决的也是sampling variability,即降低variance
b、而我们需要去偏的场景,往往也是因为譬如“特征缺失“,以及某些特定条件导致的样本本身有偏。可能导致的系统性问题。具体可见:https://www.jianshu.com/p/7daf4789c24c【这里最后的讨论也可见,在prediction与inference任务中,对bias与variance有明显的偏好】
Ridge Regression[1][2]
- 1、有偏
- 2、Bias随着的增大而增大
- 3、方差小于OLS
- 4、方差随着的增大而减小
TODO
Logistics Regression with l2 penalty
由于Fisher Information是对于无偏估计量,可以用来计算variance的下界(可见:https://www.jianshu.com/p/1dbd868e541a)。所以对于有偏估计来说,严格意义上来讲我们不能此来做variance的估计。
TODO
PS:由于上述的penalty都和大小有关,所以是量纲敏感的,因此我们对于这种模型通常都要做归一化
Refer
[1],ridge regression中相关推导
Lecture notes on ridge regression
[2]
shrinkage 方向:
PCA与样本协方差:
https://zhuanlan.zhihu.com/p/132275334
[3]
Shrinkage estimator:
https://en.wikipedia.org/wiki/Shrinkage_(statistics)
sample variance 的估计量:选择除数以达到更小的variance
https://en.wikipedia.org/wiki/Mean_squared_error#Variance