Logistic regression 为什么用 sigmoi

2018-05-29 本文已影响17人不会停的蜗牛

假设我们有一个线性分类器：

我们要求得合适的 W ，使 0-1 loss 的期望值最小，即下面这个期望最小：

一对 x y 的 0-1 loss 为：

在数据集上的 0-1 loss 期望值为：

由链式法则将概率p变换如下：

为了最小化 R（h），只需要对每个 x 最小化它的 conditional risk：

由 0-1 loss 的定义，当 h（x）不等于 c 时，loss 为 1，否则为 0，所以上面变为：

又因为

所以：

为了使条件风险最小，就需要 p 最大，也就是需要 h 为：

上面的问题等价于找到 c＊，使右面的部分成立：

取 log ：

在二分类问题中，上面则为：

即，我们得到了 log-odds ratio ！

接下来就是对 log-odds ratio 进行建模，最简单的就是想到线性模型：

则：

于是得到 sigmoid 函数：

由此可见，log-odds 是个很自然的选择，sigmoid 是对 log-odds 的线性建模。