限制目标函数参数太大

2020-05-09 本文已影响0人学人工智能的菜菜

根据上一篇文章可知，根据梯度下降法可以求出参数，但是求出的参数就是最好的模型呢？我也不知道，咱们下面看看一个问题

如果当给定的数据线性可分的时候，逻辑回归的参数会趋于无限大吗？

那么我们来看看，上面的假设是否成立。
由目标函数可知：
$P(y=1|xi,w,b) = \frac{1}{1+e^{-(W^{T}x+b))}}\approx 1$
$P(y=0|xi,w,b) = 1-\frac{1}{1+e^{-(W^{T}x+b))}}\approx 0$
由第一个式子可知，要想y=1的概率趋向于1，那么W^tx+b就会趋向于无穷大，那么w就会趋向于无穷大，所以我们的假设是成立的
当参数无穷大，管理者就会趋向1，结果虽然很完美，但是会出现过拟合现象
那么就要限制参数变得太大，添加L2正则。
为什么添加L2正则呢？个人的理解是
1、L1正则化会导致参数值变为0，但是L2却只会使得参数值减小
2、在机器学习中也将L2正则称为weight decay，在回归问题中，关于L2正则的回归还被称为Ridge Regression岭回归。weight decay还有一个好处，它使得目标函数变为凸函数，梯度下降法和L-BFGS都能收敛到全局最优解。
那么添加正则后的目标函数是：
$\widehat{W}MLE,\widehat{b}MLE = argmin-\prod_{i=1}^{n}p(yi|xi,w,b)+\lambda \left \| W \right \|22$
假如|w|很大=》lamda|w|就会变得很大
lamda是超参数
a：if lamda=0时，没有任何限制
b：if lamda=很大时，w变的更小，解决过拟合
c：if lamda=很小时时，w变得更大，会出现欠拟合
那么加上正则的梯度下降法的导数函数：
1、BGD
$=\sum_{i=1}^{n}(\delta (W^{T}X+b)-yi).xi+2\lambda w$
2、SGD
$=(\delta (W^{T}X+b)-yi).xi+2\lambda w$
接下来看看L1和L2正则。

限制目标函数参数太大

猜你喜欢

热点阅读