L0,L1,L2和核方法正则化

2017-11-06  本文已影响0人  蒜苗爱妞妞

正则化主要采用奥卡姆剃刀原理,类似于加入先验知识的概率模型

L0和L1正则都可以是的参数矩阵稀疏化(强制参数据矩阵大部分元素为0),但是相比于L0,L1正则是L0正则的最优凸近似,而且优化较为方便

Why-----------稀疏化矩阵参数使得模型具有:

                                      1、 特征选择的功能  去除冗余的信息。一般而言,输出只是和少部分输入有关系

                                      2、具有可解释性,可视化某些重要的特征,尤其在机器学习过程中,分析决策因子

L2正则:(向量元素平方和后求平方根,参数矩阵整体偏向于0,但不是L1的等于0)  又称   岭回归   或者   权重衰减weight decay

                                      1、有效防止过拟合,提高模型的鲁棒性

                                      2、解决优化问题。有效解决了训练过程中参数出现的condition number较大时不好求逆的情况,使得矩阵求逆时相当于引入了

                                             单位矩阵,解决了求逆时参数矩阵出现病态(ill condition)情况,使得condition number接近于1。同时使得函数曲线强制凸优化(入强凸),加快收敛并使得收敛更加稳定

核方法:

有点类似于PCA,SVD的感觉

注:优化问题

                                           1、 局部极小值

                                            2、  ill condition问题。condition number是衡量当输入x变化时输出的变化量的指标,越接近于1,越稳定,模型鲁棒性越好。

加:

L2与L1的区别在于,L1正则是拉普拉斯先验,而L2正则则是高斯先验。它们都是服从均值为0,协方差为1λ。当λ=0时,即没有先验)

上一篇 下一篇

猜你喜欢

热点阅读