day1

2017-08-22 本文已影响0人 546aa0b8c2ea

1. 单特征线性回归

hypothesis 假设、估计
cost function 代价函数

代价函数 J(θ) = 1/2（估计值 - 真实值）的平方
误差平方和函数： 1/2为了方便求导

对于一个二元函数，先对J(θ) 求导，得到误差斜率，沿着斜率方向，按照步长逐渐减小。步长不宜过大，会错过代价函数最小点；也不宜过小，迟迟不能到达最小点。

对于给定的M个点的数据集，可以用M-1次的函数取完美的拟合这个点集。

基于假设：回归函数的估计值与真实值之间的误差假设是一个高斯分布
即：t （真实值）= y (x，w)(估计值) + E（误差）

偏差（bias）: 预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据.
方差（variance）：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散。
泛化误差（error）：方差 + 偏差

泛化误差：训练处一个模型后，在新的数据集上使用时的错误率

在一个数据集中，经过科学采样，得到一些子数据集，根据不同的子数据集可以训练处不同的模型。

Paste_Image.png

实际使用时多取方差和偏差加起来最优的点，就是我们最佳的模型复杂度。

实际上，根据公式推导，损失函数 = 偏差的平方 + 方差 + 固有噪声