机器学习

逻辑回归

2019-04-09  本文已影响5人  9933fdf22087

线性回归模型公式:g(x)=\omega _0 + \omega _1x_1

逻辑回归模型公式:f(x) = \frac{1}{1+e^{-g(x)} } (包含了线性回归)

x条件下y=1发生的概率为:P(y=1 | x)=\pi(x)=\frac{1}{1+e^{-g(x)}}

x条件下不发生的概率为:P(y=0 | x)=1-P(y=1 | x)=1-\frac{1}{1+e^{-g(x)}}=\frac{e^{-g(x)}}{1+e^{-g(x)}}=\frac{1}{1+e^{g(x)}}

事件发生与不发生的概率比(事件发生比odds)为:\frac{P(y=1 | x)}{P(y=0 | x)}=\frac{p}{1-p}=e^{g(x)}

如果事件发生的概率是p,那么该事件的几率为p(1-p)。接下来将会对这个odds进行操作。

设非线性函数g(x)=w_{0}+w_{1} x_{1}+\ldots+w_{n} x_{n}

对odds取对数得到:\ln \left(\frac{p}{1-p}\right)=g(x)=w_{0}+w_{1} x_{1}+\ldots+w_{n} x_{n}

假设有m个相互独立的观测样本,观测值分别为y_1,y_2,...,y_m,设p_{i}=P\left(y_{i}=1 | x_{i}\right)为给定条件下得到y_i=1的概率,y_i=0的概率为P\left(y_{i}=0 | x_{i}\right)=1-p_{i},所以得到一个观测值的概率为P\left(y_{i}\right)=\frac{p_{i}^{y_{i}}}{(1-p_{i})^{y_i-1}} =p_{i}^{y_{i}}\left(1-p_{i}\right)^{1-y_{i}}。因为各个观测样本相互独子,那么它们的联合分布为各边缘分布的乘积。

得到似然函数为:L(w)=\prod_{i=1}^{m}\left(\pi\left(x_{i}\right)\right)^{y_{i}}\left(1-\pi\left(x_{i}\right)\right)^{1-y_{i}}

似然函数的意思就是求在所有事件发生的odds概率乘积最大值下的参数值w (w_0,w_1,...,w_n)。n+1个参数。

对函数L(w)取对数得到:\ln L(w)=\sum_{i=1}^{m}\left(y_{i} \ln \left[\pi\left(x_{i}\right)\right]+\left(1-y_{i}\right) \ln \left[1-\pi\left(x_{i}\right)\right]\right)

接下来分别对这些w参数求导,得到n+1个方程。接下来以对参数w_k求偏导为例,\begin{aligned} &\left(y_{i} \ln \left[\pi\left(x_{i}\right)\right]+\left(1-y_{i}\right) \ln \left[1-\pi\left(x_{i}\right)\right]\right)^{\prime} \\ &=\frac{y_{i}}{\pi\left(x_{i}\right)} \cdot\left[\pi\left(x_{i}\right)\right]^{\prime}+\left(1-y_{i}\right) \cdot \frac{-\left[\pi\left(x_{i}\right)\right]^{\prime}}{1-\pi\left(x_{i}\right)} \\ &=\left[\frac{y_{i}}{\pi\left(x_{i}\right)}-\frac{1-y_{i}}{1-\pi\left(x_{i}\right)}\right] \cdot\left[\pi\left(x_{i}\right)\right]^{\prime} \\ &=\left(y_{i}-\pi\left(x_{i}\right)\right) g^{\prime}(x) \\ &=x_{i k}\left[y_{i}-\pi\left(x_{i}\right)\right] \end{aligned}

得出:\frac{\partial \ln L\left(w_{k}\right)}{\partial w_{k}}=\sum_{i=1}^{m} x_{i k}\left[y_{i}-\pi\left(x_{i}\right)\right]=0,当梯度为0时可使得函数值最大,至此求得最优w_k

上一篇 下一篇

猜你喜欢

热点阅读