2018-07-26

2018-07-26  本文已影响0人  王十二11

Machine Learning-Linear Regression

线性回归算法

对于特征x,及预测值h_0(x)、参数\theta符合:

h_0(x)=\sum_{i=0}^{n}\theta_ix_i=\theta^Tx

对于M维的向量x,总有m-1阶数的方程 h_0(x)=\theta_1^Tx+\theta_2^Tx^2+\theta_3^Tx^3+...+\theta_{m-1}^Tx^{m-1}
高阶的非线性函数也可以看成是线性函数(x,x^2,x^3,...x^m)

对于每个样本而言: y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)} ,其中误差 \epsilon^{(i)} 符合高斯分布

p(\epsilon^{(i)})= {1\over\sqrt{2\Pi}\sigma}exp{-{(\epsilon^{(i)})^2\over 2\sigma^2}}

\epsilon^{(i)}=y^{(i)}-\theta^Tx^{(i)} 代入得似然函数:

L(\theta)= \Pi_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)= \Pi_{i=1}^{m}{1\over\sqrt{2\Pi}\sigma}exp{-{(y^{(i)}-\theta^Tx^{(i)})^2\over 2\sigma^2}}

\log L(\theta)=\log \prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i))}-\theta ^{T}x^{(i)})^{2})}{2\sigma ^{2}})

展开化简得:
m\log \frac{1}{\sqrt{2\lambda }\sigma }-\frac{1}{\sigma ^{2}}\cdot \frac{1}{2}\cdot \sum_{i=1}^{m}(y^{(i))}-\theta ^{T}x^{(i)})^{2}

为了避免过拟合,加入正则项,避免\theta值过大

J(\theta)=\frac{1}{2}\cdot \sum_{i=1}^{m}(y^{(i))}-\theta ^{T}x^{(i)})^{2}+\lambda \sum_{J=1}^{m}\theta _{j}^{2}

J(\theta)=\frac{1}{2}\cdot \sum_{i=1}^{m}(y^{(i))}-\theta ^{T}x^{(i)})^{2}+\lambda \sum_{J=1}^{m}\left | \theta \right |

J(\theta)=\frac{1}{2}\cdot \sum_{i=1}^{m}(y^{(i))}-\theta ^{T}x^{(i)})^{2}+\lambda (P\sum_{J=1}^{m}\left | \theta \right |+(1-p)\sum_{J=1}^{m}\theta _{j}^{2})

对目标函数求导后
\theta =(X^{T}X)^{-1}X^{T}y

R^{2}:1-\frac{\sum_{i=1}^{m}(\breve{y}-y_{i})^{2}}{\sum_{i=1}^{m}(y_{i}-\bar{y})^{2}}

预测值和真实值之间的差异:残差平方和/真实值和平均值的差异:类似方差项

误差如果不符合高斯分布,需要处理成正常的分布

梯度下降

\theta不一定可通过求导求得

目标函数:
J(\theta)=\frac{1}{2m}\cdot \sum_{i=1}^{m}(y^{(i))}-h_0(x^i))^{2}

局部最小,不一定是全局最小

沿着负梯度方向迭代,更新后的\theta使得J(\theta)更小

\theta =\theta -\alpha \cdot \frac{\partial J(\theta ))}{\partial \theta }

\alpha:学习率

上一篇下一篇

猜你喜欢

热点阅读