逻辑回归之Sigmoid推导
2018-10-10 本文已影响9人
0过把火0
序
本次记录的内容包括:
- 逻辑回归目标函数sigmoid的来源
- 解释为何LR是对数线性模型
- 多角度推导sigmoid
疑问
逻辑回归算是最简单的ML模型之一,看过NG视频的同学多多少少会有些疑问:
- 为何NG一上来就告诉我们LR的目标函数的 wx+b 的sigmoid形式呢?
- 为何logit函数是对数线性方程: log(p/1-p) = wx+b 呢?
- NG说,sigmoid将 wx+b 的值映射为概率,那么为何偏偏选择sigmoid不选其他归一化函数呢?
- logit分布与逻辑回归模型的联系在哪里?
下面的分析将会解答上述问题!
sigmoid推导
1.贝叶斯角度推导
2.由最大熵模型推导
-
ME与LE在形式上较为相近,都是对数的线性模型(因为都是通过极大似然估计参数,因此可转为log形式)
-
模型的学习方法都是在给定训练集数据条件下对模型进行极大似然估计或正则化的极大似然。
-
LR里面假设二分类两类样本 X 服从均值不同方差相同的高斯分布,而高斯分布是一种最大熵分布。或者可以理解为,二项式分布的最大熵等价于sigmoid的极大似然。
逻辑回归是最大熵模型对应分类为2类别的特殊情况,也就是当逻辑回归应对多分类时其实就是最大熵模型。具体推导如下:
首先我们先摆出最大熵模型:
ps:其中θ就是我们前面推导时引入的拉格朗日算子,后面将求解max(w) 转化为MLE,将算子看作参数在求解
我们限定y为二元变量,即Dom(y) = { y0, y1 }
根据最大熵模型,我们还需定义特征函数:
ps:即仅在y=y1时抽取x的特征。
将该特征函数代入最大熵模型,我们得到当y=y1时:
当y=y0时:
很明显我们发现,当只有二元类别时,最大熵模型就是LR模型
3.由指数分布族推导
(指数分布族和广义线性模型请参考:文章)
结合指数族分布理论以及广义线性模型的三条假设,我们可以推导出很多学习算法。
对于二分类问题来讲,它的前提假设是条件概率服从伯努利分布(贝叶斯先验),即:
上面的化简已经看出伯努利分布可以改写为指数族分布,且:
同时,我们可以由上面的第二个式子推出:
也就是看到了sigmoid的身影;
结合广义线性模型的假设,下面推导 LR 的假设函数为何是sigmoid:
1、首先我们的逻辑回归模型要估计的是给定样本特征 X,来预测该样本属于类别的期望值,因此可符合广义线性模型的假设2;
2、其次,根据二项分布的特征,其期望值就等于 P,因此可推出(2)式;
3、根据上面匹配指数族分布的推导,我们可推出(3)式;
4、因为广义线性模型的假设3,可推出(4)式。(其实这点的推导可参考第一种解释)
综上所述,逻辑回归的假设函数是 sigmoid形式。