限制目标函数参数太大

2020-05-09  本文已影响0人  学人工智能的菜菜

根据上一篇文章可知,根据梯度下降法可以求出参数,但是求出的参数就是最好的模型呢?我也不知道,咱们下面看看一个问题

如果当给定的数据线性可分的时候,逻辑回归的参数会趋于无限大吗?

那么我们来看看,上面的假设是否成立。
由目标函数可知:
P(y=1|xi,w,b) = \frac{1}{1+e^{-(W^{T}x+b))}}\approx 1
P(y=0|xi,w,b) = 1-\frac{1}{1+e^{-(W^{T}x+b))}}\approx 0
由第一个式子可知,要想y=1的概率趋向于1,那么W^tx+b就会趋向于无穷大,那么w就会趋向于无穷大,所以我们的假设是成立的
当参数无穷大,管理者就会趋向1,结果虽然很完美,但是会出现过拟合现象
那么就要限制参数变得太大,添加L2正则。
为什么添加L2正则呢?个人的理解是
1、L1正则化会导致参数值变为0,但是L2却只会使得参数值减小
2、在机器学习中也将L2正则称为weight decay,在回归问题中,关于L2正则的回归还被称为Ridge Regression岭回归。weight decay还有一个好处,它使得目标函数变为凸函数,梯度下降法和L-BFGS都能收敛到全局最优解。
那么添加正则后的目标函数是:
\widehat{W}MLE,\widehat{b}MLE = argmin-\prod_{i=1}^{n}p(yi|xi,w,b)+\lambda \left \| W \right \|22
假如|w|很大=》lamda|w|就会变得很大
lamda是超参数
a:if lamda=0时,没有任何限制
b:if lamda=很大时,w变的更小,解决过拟合
c:if lamda=很小时时,w变得更大,会出现欠拟合
那么加上正则的梯度下降法的导数函数:
1、BGD
=\sum_{i=1}^{n}(\delta (W^{T}X+b)-yi).xi+2\lambda w
2、SGD
=(\delta (W^{T}X+b)-yi).xi+2\lambda w
接下来看看L1和L2正则。

上一篇 下一篇

猜你喜欢

热点阅读