2020机器学习线性模型(F)

2020-01-21 本文已影响0人 zidea

machine_learning.jpg

最大似然问题

在给定数据条件下，我们想要求找到最好的线性来拟合这些点。但是通常我们是无法找到一个可以完美拟合这些点的线性模型。因为这些点可能因为噪声会跟真实点有一定距离。这里有意思的事是我们可以认为这些距离是服从正态分布的。
$f_{\theta}(x^{(1)},x^{(2)},\dots,x^{(n)}) = f(x^{(1)},x^{(2)},\dots,x^{(n)}|\theta)$

正态分布的期望值 $\mu$ 其标准值 $\sigma$ 标准差决定正态分布。

$f(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}$

其实更加形象理解就是用曲线覆盖数据越多越好，而且曲线形状是由 mu 和 sigma 所确定。

对于这一组数据，可以取求参数 $\theta$ 来拟合这些数据。当然也可以将 $\theta$ 看做是给定条件。会认为这些数据是服从 $\theta = ( \mu \, \sigma)$ 均值和方差的正态分布。

$f(x^{(1)},x^{(2)},\dots,x^{(n)}|\mu,\sigma) = \prod_i^n \frac{1}{\sigma \sqrt{2 \pi}} exp(-\frac{1}{2} [\frac{x_i - \mu}{\sigma}]^2)$

我们看到这些点概率也就是数据的联合概率。

$f(x^{(1)},x^{(2)},\dots,x^{(n)}|\theta) = f(x^{(1)}|\theta)f(x^{(2)}|\theta) \dots f(x^{(n)}|\theta)$
这里我们可以假设 $x^{(i)}$ 间是相互独立的，所以可以写成联乘的形式。每一个 $f(x^{(i)}|\theta)$ 都是一个概率密度函数。

$f(x^{(1)},x^{(2)},\dots,x^{(n)}|\theta) = \prod_{i=1}^n f(x^{(i)}|\theta)$

现在极大似然函数就是给定什么样 $\theta$ 我们让他们乘积最大，因为是小数所以乘积会越来越小。所以可以通过 log 将乘积转换为连加形式。
$\ln L(x^{(1)},x^{(2)},\dots,x^{(n)}|\theta) = \sum_{i=1}^n \ln f(x^{(i)}|\theta)$

这些数据连乘的形式而且每一个f 都是一个正态分布，所以我们极大似然函数就是在给定什么样 $\theta$ 我想求上面函数最大。

lr2.png

我们在整条直线上分布同样参数正态分布位于每一个数据点上，在每一个样本点与线性模型的距离作为输入，这里我们认为均值为 0 ，

( $y^{(i)} - \theta^Tx^{(i)} - 0)$

$p(y^{(i)}|x^{(i)}\theta) = \frac{1}{\sigma \sqrt{2 \pi}} exp(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2})$

其实我们求极大似然值也就是求方程的最小二乘法。

接下来介绍是 logistic 回归，现在还是有很多人叫逻辑回归，这个叫法是有点问题，我之前也这么叫这个模型。周老师在他的西瓜书叫对数几率回归。我们之前一直在找一个线性模型来做回归，其实这里回归是拟合意思，也就是找到一个合适模型来拟合现有数据。

这里我们就叫数几率回归，数几率回归与其他回归问题不同，他不是用来做拟合而是做分类。线性模型通过 sigmoid 函数变换后值域变为 0 到 1 。我们根据函数值取值是大于 0.5 还是小于 0.5 来判别类别。

Sigmoid

$\Phi(z) = \frac{1}{1 + e^{-z}}$

th.jpeg
sigmoid 是指数函数，这个函数会把我们线性函数值域压缩到 0 到 1 之间。

也就是将 z 用我们之前线性模型来代替。可以这样解释就是将我们之前的线性关系映射到 0 和 1 之间。

我们之前学习线性模型可以这样理解一下，也就是我们拿到数据，数据有很多特征，但是这些特征对于样本哪个更重要，我们通过权重(参数)来表示。这也就是线性模型有趣的地方。那么在数几率回归中我们是用 sigmoid 函数将线性方法拟合一个 0 到 1 之间数来表示样本属于哪个一个类别的概率。

$\log \frac{p(y=1|x)}{p(y=0|x)} = -\theta^Tx$

这里p(y=1|x)/p(y=0|x) 是一个几率问题，这个值如果问题 1 表示 x 属于 y=1 和 y=0 的类别是等价的，然后取 log 就是我们线性组合。我们可以反推导一下就可以得到上面公式。

2020机器学习线性模型(F)

最大似然问题

Sigmoid

猜你喜欢

热点阅读