线性回归

2018-09-25  本文已影响0人  煮饺子的茶壶

假设函数:

参数:θ

特征量:x

代价函数:

梯度下降算法:下图为梯度下降的目的,找到J(θ)的最小值。

例子

其实,J(θ)的真正图形是类似下面这样的,因为其是一个凸函数,只有一个全局最优解,所以不必担心像上图一样找到局部最优解。

凸函数 等高线图 θ参数公式

特征缩放:

特征缩放(Feature scaling),在这里我认为它是对用于梯度下降法的数据进行处理的方法。它的作用是,将多个特征的数据的取值范围处理在相近的范围内,从而使梯度下降更快地收敛。

(1) 该特征的值/该特征的最大值

x=x/s

(2) (该特征值-该特征最大取值的一半)/(该特征的最大值)

x=(x-μ)/s

μ:特征量平均值           s:特征量最大值减最小值

学习率:

除了特征的缩放会影响梯度下降的运算,学习速率也会直接影响。这里所说的“学习速率”,指的是梯度下降表达式中的α。

如何判断学习速率是否合适?最直接的方法是,画出训练后代价函数和迭代数的图像,根据图像去判断调整。除此之外,还可以使用自动检测法。即当代价函数在迭代中,小于一个很小的值时,我们就认为梯度下降收敛。但是,这个“很小的值”是很难确定的,一般可取1e-3。当然,还是优先选择第一种方法判断!下面就列举几种常见情况进行讲解。

数学原理证明,只要学习速率足够小,代价函数一定会减小,只是学习速率太小的话,迭代的次数会增加。在具体实现时,α的取值可以通过不断尝试,不断调整,最终确定。可尝试的值:0.001,0.003,0.01,0.03,0.1,0.3,1

单变量与多变量线性回归比较:

比较

正规方程法:


(m×(n+1)的矩阵) ((n+1)×1的矩阵) ((n+1)×1的矩阵)

由线性代数运算,可得:

正规方程

观察该方程,也许你会有疑问:如果X'X不可逆的时候,怎么办呢?

首先,我们要搞明白什么时候会使它不可逆。原因:

1.特征中,有冗余的特征向量,如:向量之间互为线性; 

2.训练数据太少,特征太多。

解决方法:针对第一个原因,我们可以删除冗余的特征;针对第二个,我们可以适当去掉一些不那么重要的特征,或者使用正规化方法。


Python代码:

# -*- coding: utf-8 -*-

"""

Created on Sun Jan 22 14:27:15 2017

@author: louishao

"""

import numpyas np

#train data

train_x = np.mat([[1,1],[1,2],[1,3],[1,4],[1,5],[1,6],[1,7],[1,8],[1,9],[1,10],[1,11],[1,12],[1,13],[1,14]])

train_y = np.mat([3.0,5.0,7.0,9.0,11.0,13.0,15.0,17.0,19.0,21.0,23.0,25.0,27.0,29.0])

# transpose the train_y

y = np.transpose(train_y)

#transpose the train_x

transposex = np.transpose(train_x)

#the inverse

invx = np.linalg.inv(transposex*train_x)

theta = invx*transposex*y

theta1 =float(theta[1][0])

theta0 =float(theta[0][0])

print "the predict function is y=%sx+%s"%(theta1,theta0)



梯度下降和正规方程的比较:

比较

杂合文章,切勿传播!!!

上一篇下一篇

猜你喜欢

热点阅读