秋招-算法

逻辑回归之Sigmoid推导

2018-10-10  本文已影响9人  0过把火0

本次记录的内容包括:

疑问

逻辑回归算是最简单的ML模型之一,看过NG视频的同学多多少少会有些疑问:

  1. 为何NG一上来就告诉我们LR的目标函数的 wx+b 的sigmoid形式呢?
  2. 为何logit函数是对数线性方程: log(p/1-p) = wx+b 呢?
  3. NG说,sigmoid将 wx+b 的值映射为概率,那么为何偏偏选择sigmoid不选其他归一化函数呢?
  4. logit分布与逻辑回归模型的联系在哪里?

下面的分析将会解答上述问题!

sigmoid推导

1.贝叶斯角度推导


2.由最大熵模型推导

逻辑回归是最大熵模型对应分类为2类别的特殊情况,也就是当逻辑回归应对多分类时其实就是最大熵模型。具体推导如下:
首先我们先摆出最大熵模型:


ps:其中θ就是我们前面推导时引入的拉格朗日算子,后面将求解max(w) 转化为MLE,将算子看作参数在求解

我们限定y为二元变量,即Dom(y) = { y0, y1 }

根据最大熵模型,我们还需定义特征函数:



ps:即仅在y=y1时抽取x的特征。

将该特征函数代入最大熵模型,我们得到当y=y1时:



当y=y0时:


很明显我们发现,当只有二元类别时,最大熵模型就是LR模型


3.由指数分布族推导

(指数分布族和广义线性模型请参考:文章

结合指数族分布理论以及广义线性模型的三条假设,我们可以推导出很多学习算法。

对于二分类问题来讲,它的前提假设是条件概率服从伯努利分布(贝叶斯先验),即:



上面的化简已经看出伯努利分布可以改写为指数族分布,且:



同时,我们可以由上面的第二个式子推出:

也就是看到了sigmoid的身影;

结合广义线性模型的假设,下面推导 LR 的假设函数为何是sigmoid:

    1、首先我们的逻辑回归模型要估计的是给定样本特征 X,来预测该样本属于类别的期望值,因此可符合广义线性模型的假设2;
    2、其次,根据二项分布的特征,其期望值就等于 P,因此可推出(2)式;
    3、根据上面匹配指数族分布的推导,我们可推出(3)式;
    4、因为广义线性模型的假设3,可推出(4)式。(其实这点的推导可参考第一种解释)

综上所述,逻辑回归的假设函数是 sigmoid形式。

转载注明:https://www.jianshu.com/p/8904549e66c5

上一篇下一篇

猜你喜欢

热点阅读