机器学习系列（二十五）——正则化之Ridge回归与LASSO回归

2019-07-19 本文已影响10人 Ice_spring

模型正则化Regularization

解决过拟合问题或者说解决模型含有巨大方差误差问题，一个非常有效的方法是模型正则化。所谓模型正则化就是限制待求参数的大小。正则化有多种不同方法，本篇将介绍岭回归和LASSO回归两种常用的正则化。
以多元线性回归为例，在多元线性回归中，y与x的模型表达式为：
$y=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+...+\theta_{n}x_{n}$

对于一个样本 $X^{(i)}$ 的预测值则为：
$\widehat{y}^{(i)}=\theta_{0}+\theta_{1}X_{1}^{(i)}+\theta_{2}X_{2}^{(i)}+...+\theta_{n}X_{n}^{(i)}$

模型最终要求解参数 $\theta=(\theta_{0},\theta_{1},...,\theta_{n})^{T}$ 使得：
$MSE=\sum_{i=1}^m(y^{(i)}-\widehat{y}^{(i)})^{2}$

尽可能小。但是这样求得单个参数数值可能是非常大的，这样的模型面对全新数据将会有很大波动。于是为了模型的泛化能力，对参数 $\theta$ 也加上限制，这就是正则化，此时目标函数转变为：
$J(\theta)=MSE+\frac{\alpha}{2}\sum_{i=1}^{n}\theta_{i}^{2}$

这种模型正则化方式称为岭回归Ridge Regression。 $\alpha$ 是一个新的超参数，可以理解为正则化部分占整个待优化函数的权重。

岭回归与LASSO回归

岭回归

以一个具体的例子感受一下模型正则化的作用，生成模拟数据集：

np.random.seed(42)
x = np.random.uniform(-3,3,size=100)
X = x.reshape(-1,1)
y = 0.5 * x +3 +np.random.normal(0,1,size=100)

该模拟数据集服从y=0.5x+3，加入了标准高斯噪音，首先不使用正则化用20次幂多项式回归训练模型：

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
def PolynomialRegression(degree):
    '''传入步骤对应的类组成多项式回归函数'''
    return Pipeline([
        ("poly",PolynomialFeatures(degree=degree)),
        ("std_scaler",StandardScaler()),
        ("lin_reg",lin_reg)
    ])

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

from sklearn.metrics import mean_squared_error

poly20_reg = PolynomialRegression(degree=20)
poly20_reg.fit(X_train,y_train)

y20_predict = poly20_reg.predict(X_test)
mean_squared_error(y_test,y20_predict)

均方误差值：

均方误差值MSE

X_plot = np.linspace(-3,3,100).reshape(100,1)
y_plot = poly20_reg.predict(X_plot)

plt.scatter(x,y)
plt.plot(X_plot,y_plot,color='r')#有序排序后绘制曲线
plt.axis([-3,3,-1,6])
plt.show()

回归方程图示：

20次幂无正则化

下面同样使用degree=20的多项式加入正则化项进行岭回归，为了调用方便，封装岭回归函数和做图函数：

from sklearn.linear_model import Ridge
def RidgeRegression(degree,alpha):
    '''传入步骤对应的类组成岭回归函数'''
    return Pipeline([
        ("poly",PolynomialFeatures(degree=degree)),
        ("std_scaler",StandardScaler()),
        ("ridge_reg",Ridge(alpha=alpha))
    ])

'''绘图函数封装'''
def plot_model(model):
    X_plot = np.linspace(-3,3,100).reshape(100,1)
    y_plot = model.predict(X_plot)

    plt.scatter(x,y)
    plt.plot(X_plot,y_plot,color='r')#有序排序后绘制曲线
    plt.axis([-3,3,-1,6])
    plt.show()
plot_model(poly20_reg)

使用 $\alpha$ =0.0001的岭回归：

ridge1_reg = RidgeRegression(20,0.0001)
ridge1_reg.fit(X_train,y_train)

y1_predict = ridge1_reg.predict(X_test)
mean_squared_error(y_test,y1_predict)

0.0001岭回归MSE

plot_model(ridge1_reg)

0.0001岭回归

可以看到 $\alpha$ =0.0001的岭回归均方误差比没有正则化的要优秀很多，图像中也已经没有特别离谱的点。当然可以修改 $\alpha$ 的值来进一步优化结果，使用 $\alpha$ =1的岭回归：

1岭回归MSE

1岭回归

使用 $\alpha$ =100的岭回归：

100

使用 $\alpha$ =10000的岭回归：

10000

可以看到随着 $\alpha$ 的增加，回归曲线越来越平滑，最后甚至成为与x轴平行的直线，这是因为当权重加到非常大时，损失函数J里起决定作用的已经是正则项了，为了损失函数最小自然是所有 $\theta$ 都取0，于是回归曲线就成为与x轴平行的直线了。实际中要调节超参数 $\alpha$ 的值，让模型尽可能优秀，本例中岭回归使用过的 $\alpha$ 里可以发现 $\alpha=1$ 最优。

LASSO回归

LASSO回归全称是Least Absolute Shrinkage and Selection Operator Regression，相应的损失函数表达式为：

$J(\theta)=MSE+\frac{\alpha}{2}\sum_{i=1}^{n}|\theta_{i}|$

LASSO的特性使得它倾向于使一部分 $\theta$ 变为0，所以可以作为特征选择用，系数为0的特征说明对表达模型几乎没用。但也因此LASSO回归有可能对一些特征存在误判，所以从准确度上来说岭回归要更加准确，但是当特征特别多时使用岭回归计算将特别消耗计算资源，耗时较多，所以如果在特征特别多的情况下，比如多项式回归次幂为100，一般使用LASSO回归，LASSO可以有效降低特征量加快运算速度。
接下来对上面的数据例子使用LASSO回归，首先定义LASSO回归函数：

from sklearn.linear_model import Lasso
def LassoRegression(degree,alpha):
    '''传入步骤对应的类组成LASSO回归函数'''
    return Pipeline([
        ("poly",PolynomialFeatures(degree=degree)),
        ("std_scaler",StandardScaler()),
        ("ridge_reg",Lasso(alpha=alpha))
    ])

使用 $\alpha$ =0.01的LASSO回归：

lasso1_reg = LassoRegression(20,0.01)
lasso1_reg.fit(X_train,y_train)

y1_predict =lasso1_reg.predict(X_test)
mean_squared_error(y_test,y1_predict)

0.01

plot_model(lasso1_reg)

0.01

可以看到在LASSO回归中 $\alpha$ =0.01时，回归曲线已经非常平缓了，这也正是LASSO回归的优势，在特征选择的作用下能很快地求解模型。
使用 $\alpha$ =1的LASSO回归：

1LASSO

$\alpha$ =1时已几乎成为平行于x轴的直线。

L1，L2弹性网络

比较岭回归和LASSO可以发现，其实它们分别是MSE和MAE的一种变形，本质上是还是一种距离（误差）的衡量。机器学习中有很多这样的名词，虽然名称不同但背后的数学原理是一致的。
在这儿引入在knn算法中提到过的闵可夫斯基距离Minkowski Distance，M氏距离中当p=1时就是曼哈顿距离；p=2时就是欧氏距离。相应地有 $L_{p}$ 范数：
$||x||_{p}=(\sum_{i=1}^{n}|x_{i}|^{p})^{\frac{1}{p}}$

于是对于Ridge回归，类比范数的定义，我们叫它L2正则项；对于LASSO回归，我们称之为L1正则项；相应地，有Ln正则项。不过实际中我们很少使用大于2的正则项。还有一个L0正则项，对于L0正则化，我们希望 $\theta$ 的个数尽可能的少，即：要使非零的 $\theta$ 的个数尽可能少，这是个离散最优化问题，同样我们也很少使用L0正则化，因为求解它是一个NP难问题，实际中往往用L1的特征选择来代替L0。
综合L1正则化和L2正则化，得到弹性网Elastic Net：
$J(\theta)=MSE+r\alpha\sum_{i=1}^{n}|\theta_{i}|+\frac{1-r}{2}\alpha\sum_{i=1}^{n}\theta_{i}^{2}$

它同时具有L1正则和L2正则的优势，即能准确地计算又能进行特征选择加快计算速度，因此在实际中经常使用弹性网络进行正则化。

机器学习系列（二十五）——正则化之Ridge回归与LASSO回归

模型正则化Regularization

岭回归与LASSO回归

岭回归

LASSO回归

L1，L2弹性网络

猜你喜欢

热点阅读