PHP架构程序员程序猿阵线联盟-汇总各类技术干货

统计学习方法之线性回归法

2017-12-11  本文已影响52人  J_101

1.线性回归

ε表示误差项,也叫随机干扰项,即真实值和预测值之间的差异。ε服从均值为0的正态分布,其中只有一个自变量的情况称为一元线性回归,多个自变量的情况叫多元线性回归

  • 对模型设定的假设:
    回归模型是正确设定的,即模型选择了正确的变量,且选择了正确的函数形式。
  • 对解释变量的假设:
    解释变量x是确定性变量,不是随机性变量,在随机抽样中取固定值。
  • 对误差项ε的假设:
    误差项ε是一个期望为0,且相互独立的高斯分布。

2.损失函数(Cost Function)

房屋销售记录表 - 训练集(training set)或者训练数据(training data), 是我们流程中的输入数据,一般称为x
房屋销售价钱 - 输出数据,一般称为y
拟合的函数(或者称为假设或者模型),一般写做 y = h(x)
训练数据的条目数(#training set), 一条训练数据是由一对输入数据和输出数据组成的
输入数据的维度(特征的个数,#features),n

3.梯度下降

1)首先对θ赋值,这个值可以是随机的,也可以让θ是一个全零的向量。
2)改变θ的值,使得J(θ)按梯度下降的方向进行减少,算法的结束将是在θ下降到无法继续下降为止。
3)当然,可能梯度下降的最终点并非是全局最小点,可能是一个局部最小点

4.最小二乘法

5.数据归一化

6. 模型评估

R^2 (Coefficient of Determination)
SST(Sum of Squares for Total)
SSR(Sum of Squares for Regression)
SSE(Sum of Squares for Error)
SST=SSR+SSE

7.参考文献


作者:Jasonhaven.D
链接:http://www.jianshu.com/u/ed031e432b82
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

上一篇 下一篇

猜你喜欢

热点阅读