逻辑斯谛回归/LR（Logistic Regression）

2018-08-21 本文已影响16人大雄的学习人生

作为统计学习的经典分类方法，逻辑斯谛回归在今天依旧应用非常广泛。

算法释义

逻辑斯谛回归指输入 x 的线性模型与 y 的取值概率是逻辑斯谛函数。
特别地，对于二项逻辑斯谛回归模型（即 y 的取值为 -1 或 1），有：
$\begin {align} &θ(s) = \frac {e^s} { 1 + e^s } \\ &P (Y = 1 | x) = θ(wx) \\ &P (Y = -1 | x) = 1 - θ(wx) \\ \end {align}$

二项逻辑斯谛函数有一个很好的性质，那就是：
$θ(s) + θ(-s) = 1$

因此我们有：
$P (Y = -1 | x) = θ(-1 * wx)$

重要概念

参数估计

采用极大似然估计对模型参数 w 进行估计，因此极大化似然函数就是：
$\max_w L(w) = \prod_{n=1}^N {θ(y_nwx_n)}$

取自然对数再取负，从而将最大化累乘问题变成最小化累加问题，所以上式等价于：
$\min_w \sum_{n=1}^N {\ln { (θ(y_nwx_n)^{-1}) } }$
将逻辑斯谛函数带入，再除以 N 可得：
$\min_w \frac 1 N \sum_{n=1}^N {\ln {(1 + e^{-y_nwx_n})} }$

不难看出，这是以交叉熵为损失函数的最小化问题，关于交叉熵的介绍网上也比较多，这里不做详细展开。

梯度下降

由于上述损失函数是凸函数，自然地想到使其导数等于 0 从而寻找到全局最优解的方法，因此先求其导数：
$▽E_{in}(w) = \frac 1 N \sum_{n=1}^N θ(-y_nwx_n)(-y_nx_n)$

结合逻辑斯谛函数的性质可以看出：要使导数为 0，则 y_nwx_n 要远远大于 0，这就等效于训练集在特征空间中线性可分，而这时很难保证的，因此，在应用中我们往往使用梯度下降法作为逻辑斯谛回归模型的学习方法，即通过迭代求解 w，每一轮的迭代公式如下：
$w_{t+1} = w_{t} - η▽E_{in}(w_{t})$

多项逻辑斯谛回归

将二项分类推广到多项分类，即多项逻辑斯谛回归模型：
$\begin {align} &θ(s_j) = \frac {e^{s_j}} { 1 + \sum_{k=1}^{K-1} e^{s_k} } \\ &P (Y = k | x) = θ(w_kx)，k = 1,2,...,K-1 \\ &P (Y = K | x) = 1 - \sum_{k=1}^{K-1} θ(w_kx) \\ \end {align}$

参考文献

《统计学习方法》，李航