线性模型—— 一元线性回归算法推导

2019-12-17 本文已影响0人易码当先

一、线性模型原理

二、线性回归与最小二乘法

三、一元线性回归公式推导

四、总结

线性模型原理：给定d个属性x = ( $x_{1}$ ； $x_{2}$ ...， $x_{d}$ )，其中 $x_{i}$ 是第i个属性的值，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即

f(x) = $w_{1} x_{1}$ + $w_{2}x_{2}$ + ...， $w_{d} x_{d}$ + b，

向量化表示

f(x) = $w^T$ x + b，

其中 w = ( $w_{1}$ ， $w_{2}$ ， $w_{3}$ ，...， $w_{d}$ ）可以认为w是x各个维度出现的概率组成的列向量。学得w和b后，模型就可以确定。线性模型简单、可解释性强，很多非线性模型都是在线性模型基础上引入层级结构或高纬映射而得。

线性回归：给定数据集 D = {( $x_{1} ,y_{1}$ )，（ $x_{2} ,y_{2}$ ），....（ $x_{m} ,y_{m}$ ）} ，其中 $x_{i}$ = ( $x_{i1}$ ， $x_{i2}$ ，...， $x_{id}$ ) ， $y\in$ R。一元线性回归试图学得：

$f(x_{i} ) = wx_{i} + b$ ，使得 $f(x_{i} )\approx y_{i}$

那么如何确定w和b呢？显然在于如何权衡 $f(x_{i} )$ 与y之间的差别。均方误差（平方损失函数）是回归任务中常用的性能度量。因此我们可试图均方误差最小化，即：

$(w^*,b^* )$ = $argmin\sum_{i=1}^m (f(x_{i})-y_{i} )^2$ ，来求解w和b

均方误差有非常好的几何意义，它对应了欧几里得距离，简称欧氏距离。基于均方误差最小化来对模型进行求解，称为“最小二乘法”。在线性回归中最小二乘法试图找到一条直线，使所有样本到直线的欧式距离之和最小。

求解w和b，使E(w，b) = $\sum_{i=1}^m(y_{i}-wx_{i}-b)^2$ 最小化的过程，称为最小二乘法参数估计，E(w，b)是关于w和b的凸函数，当它关于w和b的导数为0时，即可得到w和b的最优解

一元线性回归公式推导

整体思路：

1、求偏置b推导公式

2、求权重w的推导公式

3、将w向量化

二元函数判断凹凸性：

设 $f(x,y)$ 在区域D上具有二阶连续偏导数，记 $A=f’’_{xx} (x,y)$ ， $B=f’’_{xy} (x,y)$ ， $C=f’’_{yy} (x,y)$ 则：

a、在D上恒有 $A > 0$ ，且 $AC$ - $B^2$ $\geq 0$ 时， $f(x,y)$ 在区域D上是凸函数；

b、在D上恒有 $A < 0$ ，且 $AC$ - $B^2$ $\geq 0$ 时， $f(x,y)$ 在区域D上是凹函数。

二元凹凸函数求最值：

设 $f(x,y)$ 是在开区域D内具有连续偏导数的凸（或者凹）函数， $(x_{0},y_{0} )$ $\in D$ 且 $f’_{x} (x_{0} ,y_{0} ) = 0$ ， $f’_{y} (x_{0} ,y_{0} ) = 0$ ，则 $f(x_{0},y_{0} )$ 必为 $f(x,y)$ 在D内的最小值(最大值)。

求解ABC：

a 、证明损失函数E(w，b) 是关于w和b的凸函数---求 $A=f’’_{xx} (x,y)$

w一阶偏导数

w二阶偏导数

b 、证明损失函数E(w，b) 是关于w和b的凸函数---求 $B=f’’_{xy} (x,y)$

w和b混合偏导数

c 、证明损失函数E(w，b) 是关于w和b的凸函数---求 $C=f’’_{yy} (x,y)$

b一阶偏导数

b二阶偏导数

至此， $A = 2\sum_{i=1}^mx_{i}^2$ ， $B = 2\sum_{i=1}^mx_{i}$ ， $C=2m$ ，满足a条件，因此E(w,b)是关于w和b的凸函数。

令一阶偏导数为0，求b:

$b = \bar{y} - w \bar{x}$

将b代入求w可得：

$w = \frac{\sum_{i=1}^my_{i}(x_{i}-\bar{x} ) }{\sum_{i=1}^mx_{i}^2-\frac{1}{m}(\sum_{i=1}^m x_{i} )^2 }$ (1)

将w向量化：

将（1）进一步恒等变化为

$w = \frac{\sum_{i=1}^m(x_{i}-\bar{x} ) (y_{i}-\bar{y} ) }{\sum_{i=1}^m(x_{i}-\bar{x} )^2 }$

由向量 $x = (x_{1},x_{2},x_{3},...,x_{m})^T$ 和 $x_{d} = ({x} _{1}-\bar{x} , {x} _{2}-\bar{x} ,...,{x} _{m}-\bar{x} )^T$

$y = (y_{1},y_{2},y_{3},...,y_{m})^T$ 和 $y_{d} = ({y} _{1}-\bar{y} , {y} _{2}-\bar{y} ,...,{y} _{m}-\bar{y} )^T$

可得： $w = \frac{x_{d}^T y_{d} } {x_{d}^T x_{d} }$ ，至此w转化为向量点乘形式

w向量化目的 ：将公式求和转化为向量点乘，充分利用了numpy进行向量点乘，替换for循环，进而有效减少计算开销。

总结：

1、本文由线性模型原理，引申出线性回归模型原理。

2、分析一元线性回归模型学习过程，即求解w和b的过程。引出均方误差（平方损失函数），而均方误差是回归问题常见的性能度量。因此将此过程，对应到均方误差最小化问题；同时方误差又有很好的几何意义，其对应着欧几里得距离（欧氏距离），因此可以把线性回归模型训练过程，看做是习得一条直线，使得所有样品点，到直线距离最小化过程。

3、根据凸函数定义，证明了均方误差是凸函数，进而将问题转化为凸函数求最小值问题。

4、采用最小二乘法，实现整个过程的公式推导求解。

线性模型—— 一元线性回归算法推导

猜你喜欢

热点阅读