机器学习之逻辑回归算法
2017-08-08 本文已影响145人
lirainbow0
已知有n个特征x_i,我们需要通过这n个特征进行组合建模,最简单的即是线性组合,但是这里加入了一个扰动因子(为了模拟真实场景特征的变化)

为了实现数值与概率的映射,我们需要一个概率函数将上述线性变化之后的值转换为概率,针对2分类问题,该概率函数为sigmoid函数

针对2分类问题,分类为1和分类为0的概率分别为

这里我们假设Y|X服从伯努利分布,由伯努利分布公式可得观测概率为

因此可得似然函数为

下面将根据公式推导为什么该概率函数为sigmoid函数
假定概率函数具有以下性质

根据信息论中定义的最大熵可得

从上面的已知条件中,根据标准的解约束不等式优化方法(拉格朗日不等式可得)

这里对不等式求导,并令求导的结果等于0(求取极值)可得

求导之后可得

化简公式之后可得

将公式6带入公式1的条件2中化简可得

然后将公式7代入公式6可得最终的表达式(softmax函数)

针对2分类问题(k=2),化简softmax函数可得(sigmoid函数)

参考文献
The equivalence of logistic regression and maximum entropy models