为什么L1正则化更容易得到稀疏解?
2021-03-31 本文已影响0人
井底蛙蛙呱呱呱
几乎所有人都知道逻辑回归中加上L1正则化更容易得到稀疏解?但是为什么呢?本文参考知乎l1 相比于 l2 为什么容易获得稀疏解?进行一些简单的解释。
角度1:从优化角度来看
从优化角度来看,也即上面的这两张对比图,相信大部分人都见到过。我当初见到这个图的时候也是思考良久也没想通该如何解释这两张图。直到今天看到一个题解下得公式说明,这里直接贴知乎截图:
上面的公式将逻辑回归的loss分解为两部分,一部分为原始参数拟合部分,另一部分则是正则化部分。看懂了上面的两个公式就明白了为什么很多人在解释上面的图的时候都提到了拉格朗日乘子法,因为将这两个式子合并在一起进行优化就是拉格朗日乘子法干的事啊!
看明白了上面的公式,再对照着图片来看,蓝色的圈圈表示满足参数拟合部分的所有解,而黄色的部分则表示满足正则部分的所有解,因此两者相交则是满足两个条件的最优解。从上面图中可以看出,L1正则化与原解的交点更可能存在于坐标轴上,也即其他轴的值此时为0。
角度2:先验概率分布
如果觉得上面的解释还是不好理解,不妨从权重先验概率分布假设的角度来进行理解:L1正则化认为权重分布是符合拉普拉斯分布的,而L2正则化则认为权重是符合高斯分布的。拉普拉斯概率分布图如下:
可以看到,拉普拉斯分布相较于正态分布,他的中心点更尖,也就是说他落在中心点(也即0值)的概率更大,因此它更容易得到稀疏解。相较于L1,L2则是更容易产生更小的权重了。
当然,还有其他的解释角度,可以参考 l1 相比于 l2 为什么容易获得稀疏解? 的回答。