机器学习与数据挖掘

机器学习基础(一)-线性回归

2019-01-28  本文已影响0人  阿瑟_TJRS

简介

线性回归是数理统计中,利用数理统计中回归分析,来==确定两种或两种以上变量间相互依赖的定量关系==的一种统计分析方法
包括一元线性回归(一个自变量)和多元线性回归(多个自变量)

原理推导

有一组房屋数据
两个维度:房屋面积(X)与售价(Y)
找出二者之间的关系

[站外图片上传中...(image-e5a537-1548663838750)]

需要找出一条直线来拟合二者的关系

x:房屋面积;y:价格;如果有多个维度(多元回归):
(y={\beta_1}x_1+{\beta_2}x_2+{{\beta_3}x_3}+...+b )

对于多元回归,使用矩阵形式进行表示
h_{\beta}(X)=\left(\begin{array}{ccc}\beta1 & \beta2 & \beta3\\ \end{array}\right)*\left( \begin{array}{ccc}x1\\x2\\x3\\\end{array}\right)

模型求解涉及具体的决策和算法
决策即为:损失函数/风险函数
算法即为:具体求解参数的方法
损失函数是用来评估模型建模的效果\color{red}{描述h函数不好的程度}
使用模型函数值即\color{red}{估计值与实际值的差的平方和}作为损失函数,1/2是用于在求导中消除前面的参数

损失函数为
J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_i-\theta_i^T)
损失函数越小,模型的效果越好

**误差项推导过程**
  1. 最小二乘法
  2. 梯度下降法

最小二乘法,高中所学数学知识,拟合线性关系的快速计算方法


a.矩阵满秩可求解时(求导等于0)
利用最小二乘法
b. 不满秩时;使用梯度下降
  1. 随机初始化参数
  2. 感知器训练法则
    w_i \leftarrow w_i+\Delta w_i
    \Delta w_i=\eta(t-o)x_i

感知器法则可以成功找到一个权向量,但如果样例不是线性可分时,它将不可收敛
引入detla法则,是反向传播的基础,对误差函数E按梯度下降方向搜索,反复修改权向量,直到得到全局的最小误差点。

w_i \leftarrow w_i +\Delta w_i
\Delta w_i=-\eta\bigtriangledown E(w_i)
所以,模型中参数更新方式为:

\beta_j:=\beta_j-\alpha \bigtriangledown J(\beta_j)
:=\beta_j-\alpha (-(y_i-h(x_i)))x_i
:= \beta_j+\alpha (y_i-h(x_i)x_i

实验实现

后续更新

参考资料

线性回归详解
从零开始学习机器学习

下一篇:逻辑回归与softmax

上一篇下一篇

猜你喜欢

热点阅读