复习 - 求解线性回归的思路 - 最大似然估计、最小二乘法

2019-01-07 本文已影响147人白尔摩斯

求解线性回归的思路： $\color{red}{最大似然估计、最小二乘法}$

一、最大似然估计求解

1、用最大似然估计求解线性回归基于的假设
$\color{red}{误差服从的假设：}$ 所有样本的误差ε⁽ⁱ⁾ (1 ≤ i ≤ n) 是独立同分布的，服从均值为 0，方差为某个定值的 б² 的高斯分布。原因：中心极限定理。

由于每个样本的预测值和实际值都存在一定的误差，我们获得这个公式

$\color{red}{求解最大似然估计步骤：}$
1、写出似然函数L(θ)
2、对似然函数取对数，并整理 ln L(θ)
3、求导数
4、解方程-导数为0的点(极值) ∂ ln L(θ) / ∂ θ = 0

02 回归算法 - 线性回归求解 θ（最大似然估计求解）

2、似然函数

$\color{red}{某种样本取得一个参数的可能性，称之为似然函数。}$

3、最大似然函数求解θ过程

y⁽ⁱ⁾= θ^TX ⁽ⁱ⁾ + ε⁽ⁱ⁾；实际值=预测值+误差；
即 ε⁽ⁱ⁾ = y⁽ⁱ⁾ - θ^TX ⁽ⁱ⁾ ①
由于误差是服从高斯分布的，高斯分布的概率密度函数：

正态分布的概率密度函数

由于 ε⁽ⁱ⁾ 均值为0，将 ε⁽ⁱ⁾ 代入公式得②：

② 第i个观测值对应的误差的概率密度函数

将公式 ε⁽ⁱ⁾ = y⁽ⁱ⁾ - θ^TX ⁽ⁱ⁾ ① 代入概率密度函数②得③：

③ - 左侧的含义：在给定了x和某种参数θ的情况下y的概率密度函数。

∵ 联合概率密度函数等于似然函数，L(θ|x) = f(x|θ);
∴ 得出公式④

④联合概率密度函数等于似然函数

现在似然函数已经求完了，接下来我们要求L(θ) 是最大值情况下的 θ 的值。

首先考虑公式④的求导，显然不太好求。要取 $\color{red}{对数似然：}$

对数似然

该函数是根据极大似然估计推导出来的一个目标函数，我们要使得目标函数值最大，那么就要让式子后面这部分的值最小。

$\color{red}{即：}$ 所以现在问题转化为求如下式子最小值时θ的值：

目标函数

然后再用 $\color{red}{梯度下降法}$ 去求解这个θ的值。
10 回归算法 - 梯度下降在线性回归中的应用
 12 回归算法 - 手写梯度下降代码

梯度下降法

$\color{red}{梯度下降的伪代码：}$ 把步骤写出来即可。

梯度下降的步骤

$\color{red}{学习率(步长)的选择：}$ 学习率都是人为设定的，或者可以理解为不断得尝试。根据迭代速度和结果进行不断得调整。学习率没有一个明确的设定范围，一般可以选择1左右的数字进行尝试，如果迭代的速度还可以，且结果能够获得即可。

$\color{red}{梯度下降的梯度值要会算。以及其对应的更新式子要会写。}$

更新每一个θ的步骤

第一步链式求导，不再赘述。
解释一下最后一步是如何转化的：
$∵\sum_{i=1}^n θ_i x_i = ( θ_1 x_1+ θ_2 x_2+ ... + θ_n x_n)$

$∴ ∂/∂θ_j(\sum_{i=1}^n θ_i x_i )$
= ∂ $( θ_1 x_1+ θ_2 x_2+ ... + θ_j x_j + ... + θ_n x_n)$ / ∂θ_j
= x_j

然后再思考以下的问题：
步骤1：初始化θ(随机初始化，可以初始化为0)
(θ₁、θ₂、... 、θ_n) = （0,0,...，0）

在第1步进行计算的时候，首先应该更新的是θ₁的值：
θ₁ = θ₁ - ( h_θ(x)-y )x₁ ；
然后要更新θ₂的值：
θ₂ = θ₂ - ( h_θ(x)-y )x₂ ；

问题来了：
当θ还没有经过更新的时候，所有(θ₁、θ₂、... 、θ_n) = (0,0,...，0）
但当数据更新完θ₁后，在要更新θ₂时，在
$θ_1 x_1+ θ_2 x_2+ ... + θ_n x_n$ 中θ₁的值是更新完之前的值0，还是θ₁更新完后的值？（完成了最后一次迭代更新后的值）