[ML] LR 为什么用 sigmoid ？

2019-11-06 本文已影响0人原来是酱紫呀

1. 思路

The point of this quick post is to write out why using the log-odds is infact very well motivated in the first place, and once it is modeled by a linear function, what you get is the logistic function.
Beginning with log-odds would infact be begging the question, so let us try to understand.

2. 结论

log-odds 是个很自然的选择，sigmoid 是对 log-odds 的线性建模。（事实逻辑回归可以说是the log-odds with a linear function的最简单的例子，如果我们有结构化输出，这种模型的自然扩展将是the Conditional Random Field。使用线性函数的选择只是在其他一些有利的属性中凸优化）。

3. 理解

假设我们有一个线性分类器：

我们要求得合适的W和 $w_0$ ，使 0-1 loss 的期望值最小，即下面这个期望最小：

其中，一对 x y 的 0-1 loss 为：

那么，

由链式法则变换如下：

为了最小化 R(h)，只需要对每个 x 最小化它的条件风险：

由 0-1 loss 的定义，当 h（x）不等于 c 时，loss 为 1，否则为 0，所以上式变为：

由于，

所以，

为了使条件风险最小，就需要 p 最大，也就是需要 h 为：

值得注意的是，到目前为止，我们对数据完全没有做出任何假设。所以上面的分类器就新样本点的预期损失而言，是我们在泛化方面可以拥有的最佳分类器。这种分类器称为贝叶斯分类器，有时也称为Plug-in 分类器。

上面的问题等价于找到 c＊，使右面的部分成立：

取 log 得：

特殊情况，为二分类时：

我们得到了 log-odds ratio ！
请注意，通过不对数据做出任何假设，只需写出条件风险，log-odds ratio 就会直接下降。这不是偶然的，因为最佳贝叶斯分类器具有用于二进制分类的这种形式。但问题仍然存在，我们如何模拟这个对数比值比？最简单的选择是考虑线性模型（there is no reason to stick to a linear model, but due to some reasons, one being convexity, we stick to a linear model）：

接下来就是对 log-odds ratio 进行建模，最简单的就是想到线性模型：

重新排列，产生熟悉的逻辑模型（和sigmoid）：

由此可见，log-odds 是个很自然的选择，sigmoid 是对 log-odds 的线性建模。

参考：https://onionesquereality.wordpress.com/2016/05/18/where-does-the-sigmoid-in-logistic-regression-come-from/

[ML] LR 为什么用 sigmoid ？

1. 思路

2. 结论

3. 理解

猜你喜欢

热点阅读