Logistic Regression与Logistic Los
Logistic Regression
在线性回归中,我们寻找的连续型随机变量和的函数关系式为:,其中为待估参数(包含截距项,即,),为随机误差。那么,如果是离散型随机变量,例如服从Bernoulli分布、多项分布等,又应该怎么样来描述和的关系呢?
下面我们只讨论一般的Logistic Regression,即。直观的想法是假设下面关系成立:
其中。然而,这样就会出现一个问题,与应该是在范围内。因此,我们可以考虑做以下修正,将其映射到范围内:
即先取指数,映射到非负区间,再做归一化。对上式再做简单化简,就可以得到Logistics Regression的常见形式:
因此,上述变换等价于对做了sigmoid变换,对应的sigmoid函数为;在多分类的情形下,即为softmax变换;在其他情形下,还有其他对应的函数,感兴趣的读者可以参考以下Generalized Model的Mean Function。
注1:这里我们只是给出了一个容易理解的方式,为什么这个映射函数恰好是而不是其他函数?其实是可以从凸优化问题中利用KKT条件求解出的,详见论文The equivalence of logistic regression and maximum entropy models。
的极大似然估计
在给定样本的情况下,首先我们需要写出似然函数。由于,因此的分布函数为。似然函数为
取对数之后,得到
注意到我们在前一节已经假定了Logistic模型,即,为了保持形式的简洁,在上式中仍用代替。注意到
对log似然函数求偏导,并令其为0:
上述方程没有显式解,一般只能用牛顿迭代法求最大似然估计的数值解。
Logistic Loss
我们重新化简一下对数似然函数,
因此,我们有
注2:在实际计算中,通常还要除以样本数,控制梯度大小,因为计算的时候是根据gradient-based算法。
注3:我们讨论的是的情况,在时,Logistic Loss有不同的形式(详见Which loss function is correct for logistic regression?),
而后者的标签与Adaboost推导时默认的标签相同,Logistic Loss与Adaboost的Exponential Loss也有一定相似性,在底数为的情况下,,Logistic Loss的图像在Exponential Loss下方,甚至还可以将Adaboost修改为优化Logistic Loss(详见Logistic Regression)。
A plot of the exponential loss, the logistic loss (using both logarithm base 2 and logarithm base e), and classification loss.