L1、L2正则化

2021-05-04 本文已影响0人张虾米试错

正则化（Regularization）是机器学习中一种常用的技术，其主要目的是控制模型复杂度，减小过拟合。最基本的正则化方法是在原目标（代价）函数中添加惩罚项，对复杂度高的模型进行“惩罚”。其数学表达形式为：
$L(w;X;y) = L'(w;X;y) + \alpha \Omega(w)$
其中， $X, y$ 为训练样本以及标签， $L()$ 为目标函数， $w$ 为权重系数向量， $\Omega(w)$ 为惩罚项， $\alpha$ 为惩罚因子。不同的 $\Omega(w)$ 对权重 $w$ 的最优解有不同的偏好，因而会产生不同的正则化效果。最常用的是 $l_1$ 范数和 $l_2$ 范数，相应称之为 $l_1$ 正则和 $l_2$ 正则。

$l1: \Omega(w) = ||w||_1 = \sum_i {|w_i|}$
$l2: \Omega(w) = ||w||_2 = \sum_i {w_i^2}$

1. 为什么L1、L2正则化可以防止过拟合？

深入理解L1、L2正则化从带约束条件的优化求解和最大后验概率两种思路对L1、L2正则化给出了分析。本文从只说下带约束条件的优化求解（因为目前我只能理解这种思路。。。）
我们知道，模型的复杂度可用VC维来衡量。通常情况下，模型VC维与系数 $w$ 的个数成线性关系：即 $w$ 数量越多，VC维越大，模型越复杂。因此，为了限制模型的复杂度，很自然的思路是减少系数 $w$ 的个数，即让 $w$ 向量中一些元素为0或者说限制 $w$ 中非零元素的个数。为此，我们可在原优化问题中加入一个约束条件：
$\min_w J(w; X,y) s.t. ||w||_0 <= C$
$||w||_0$ 范数表示向量中非零元素的个数。但由于该问题是一个NP问题，不易求解，为此我们需要稍微“放松”一下约束条件。为了达到近似效果，我们不严格要求某些权重 $w$ 为0，而是要求权重 $w$ 应接近于0，即尽量小。从而可用 $l_1$ 范数和 $l_2$ 范数来近似 $l_0$ ，即：
$\min_w J(w; X,y) s.t. ||w||_1 <= C$
$\min_w J(w; X,y) s.t. ||w||_2 <= C$
利用拉格朗日算子法，我们可将上述带约束条件的最优化问题转换为不带约束项的优化问题，构造拉格朗日函数：
$L(w,\alpha) = J(w; X,y) +\alpha(||w||_1 -C)$
$L(w,\alpha) = J(w; X,y) +\alpha(||w||^2_2 -C)$