大数据,机器学习,人工智能人工智能/模式识别/机器学习精华专题机器学习与数据挖掘

机器学习入门笔记系列(7) | 评估机器学习算法

2018-09-14  本文已影响7人  胖三斤66

如果你喜欢本文的话,不妨点赞、分享或者关注公共号「数据搬瓦工」,上面会同步更新文章。

如何有错误之处,还望大家指点,我将及时修改。

本文重点讲解「评估机器学习算法」


一、评估学习算法

1.1 调试算法的方法

假设你已经实现了正则化线性回归模型去预测房价。然而,当你用新的测试数据集去测试你的模型,你发现预测结果与真实值有很大误差。接下来你应该怎么做?

这里有以下几种调试方法:

  1. 使用更多的训练样本(get more training examples);
  2. 减少特征数(try smaller sets of features);
  3. 增加特征数(try getting additional features);
  4. 增加多项式特征,如 x_1^{2},x_2^{2},x_2x_1...
  5. 减小正则化参数 \lambda
  6. 增加正则化参数 \lambda

注意,不要盲目随机选择一种调试方法,否则会造成时间上的浪费且得不到效果。下面会介绍评价模型的方法并选择合适的调试方法。

1.2 评估假设(Evaluating a Hypothesis)

为了能有效地评估假设, 先要将数据集分成两个部分:训练集(training set),测试集(test set)。通常,将 70% 数据集划分为训练集,30% 的数据集划分为测试集。注意,在数据集分割的时候, 最好先打乱数据的顺序, 以免数据集本身的顺序对我们的评估造成影响。

训练集和测试集的划分

模型训练、测试过程如下:

  1. 使用训练集去最小化 J_{train}(\theta) 和学习参数 \theta
  2. 代入测试集计算测试误差 J_{test}(\theta)

测试误差 J_{test}(\theta) 计算

对于回归问题,J_{test}(\theta) 的计算与回归模型的待机函数计算公式一样,但 J_{test}(\theta) 不需要正则化处理;

而对于分类问题,测试误差是统计错误分类的比例,其计算方法如下:

分类问题的测试误差计算

1.3 模型选择:交叉验证(Cross Validation, CV)

即使一个模型对训练集拟合效果很好,也不能说明它是一个好模型。比如过拟合情况,它对训练集拟合效果好,但泛化能力差对新数据预测结果差。

那么, 如何量化表示模型的泛化能力 / 泛化误差?

你可能会想着采用测试误差作为泛化误差。但这不是一个好方法。请看下面的例子。

当你有以下 10 个模型假设可供选择,

  1. 我们将数据集划分为训练集和测试集;
  2. 对每一个模型假设,用训练集最小化 J_{train}(\theta^{(i)}) 并学习参数 \theta^{(i)}
  3. 然后计算每一个模型假设的测试误差 J_{test}(\theta^{(i)})
  4. 然后选择最小的 J_{test}(\theta^{(i)}) 作为最终的模型假设,比如 J_{test}(\theta^{(5)}) 最小,选择假设 h_\theta(x) = \theta_0 + ... + \theta_5x^5
  5. 模型的泛化误差等于测试误差。
样本二分法模型选择

乍一眼看过去,这种方法是没问题的。实际上,用测试误差代表泛化误差是不合理的。

用测试误差代表泛化误差是不合理的。选中的模型是基于这几个模型假设中最小的测试误差 min~J_{test}(\theta) 。而又将测试误差作为模型的泛化误差,其实是对模型的泛化误差过于乐观的估计。

交叉验证法(CV)

解决上述问题的方法,就是再增加一个集合:验证集(Cross Validation Set),作为中间的过渡层。具体的数据集划分方法如下:

  1. 训练集(一般占 60%);
  2. 验证集(一般占 20%);
  3. 测试集(一般占 20%)。

模型选择就变为:

  1. 我们将数据集划分为训练集、验证集和测试集;
  2. 对每一个模型假设,用训练集最小化 J(\theta^{(i)}) 并学习参数 \theta^{(i)}
  3. 然后计算每一个模型假设的验证误差 J_{cv}(\theta^{(i)})
  4. 然后选择最小的 J_{cv}(\theta^{(i)}) 作为最终的模型假设,比如 J_{cv}(\theta^{(5)}) 最小,选择假设 h_\theta(x) = \theta_0 + ... + \theta_5x^5
  5. 然后计算选中假设的测试误差 J_{test}(\theta^{(5)}),且模型的泛化误差等于测试误差。

验证集作为中间层用于选择模型,而测试误差不再作为选择模型的标准。此时,测试误差作为泛化误差更为合理。

PS:学习参数 \theta^{(i)} 时,即计算 J(\theta^{(i)}) 需要正则化;而计算 J_{train}(\theta^{(i)}),J_{cv}(\theta^{(i)}),J_{test}(\theta^{(i)}) 不需要正则化。用下面代码理解:

计算方式
[theta] = trainLinearReg(X, y, lambda); # 学习参数 theta,需要正则化
J_train(i) = linearRegCostFunction( X, y, theta, 0); # 训练集误差,不需要正则化,故函数最后一个参数是lambda = 0
J_cv(i) = linearRegCostFunction( Xval, yval, theta, 0); # 验证误差,不需要正则化,故函数最后一个参数是lambda = 0

二、诊断欠拟合(underfitting) / 过拟合(overfitting)

2.1 判断欠拟合 / 过拟合

欠拟合(又称为高偏差,high bias)和过拟合(又称为高方差,high variance),这两种情况表现形式如下图所示。欠拟合是模型对训练集拟合效果太差,过拟合时模型对训练集拟合效果太好导致泛化能力太差。

欠拟合和过拟合

结合上面所讲的交叉验证法,学习如何判断欠拟合 / 过拟合:

欠拟合:J_{train}(\theta)J_{cv}(\theta) 值都很大;
过拟合:J_{train}(\theta) 值很小,且 J_{cv}(\theta) >> J_{train}(\theta)

2.2 正则化与欠拟合 / 过拟合

正则化也会对模型产生影响,如下图所示。

过大的正则化参数,会导致受惩罚的参数 \theta_1,...,\theta_n 变得过小且趋近于 0 ,h_\theta(x) \approx \theta_0,最后导致欠拟合;过小的正则化参数,可能会导致过拟合。

总之,正则化参数 \lambda 过大,可能会欠拟合;\lambda 过小,可能会过拟合。

正则化参数产生的欠拟合 / 过拟合

如何选择合适的正则化参数 \lambda?步骤如下:

  1. 创建待选 λ 列表,如 \lambda \epsilon \{0, 0.01, 0.02, 0.04, 0.08, 0.16, 0.32,...\}
  2. 遍历所有 λ 并将每一个 λ 代入中模型中,学习参数 \theta
  3. 再使用得到的参数 \theta,计算每个模型的验证误差 J_{cv}(\theta)
  4. 选择验证误差最小的模型假设,其 λ 值就是该模型合适的正则化参数。

举个例子,模型假设如下图所示。

  1. 创建待选正则化参数列表{0,0.01,0.02,...,10};
  2. 对应每一个 λ 最小化模型的代价函数得到参数 \theta^{(i)},一个 λ 对应一个参数 \theta
  3. 对应计算出各自的验证误差 J_{cv}(\theta^{(i)})
  4. 选最小验证误差,假设是 λ =0.08 时验证误差最小。故此 λ =0.08 是该模型较为合适的正则化参数。
选择合适的正则化参数

三、学习曲线

学习曲线可以帮助我们判断模型处于欠拟合或者过拟合。学习曲线是误差关于训练集大小的函数。

当训练集很小的时候,如训练集只有 1或者2或者3个数据时,模型很容易拟合,此时训练误差 J_{train}(\theta) 就很小,但模型此时泛化能力差,故此时验证误差 J_{cv}(\theta) 就很大;但随着训练集增大,模型拟合效果越来越差,而泛化能力增强,此时 J_{train}(\theta) 增大,J_{cv}(\theta) 减小;

关键的地方来了

如果模型处于欠拟合状态,本身拟合效果不好,随着训练集增加到一定程度再增加时,J_{cv}(\theta) 无法有效降低,并且最后 J_{cv}(\theta) \approx J_{train}(\theta)

如果模型处于过拟合状态,J_{cv}(\theta) >> J_{train}(\theta)。但随着训练集增加,两者的差距逐渐减小,且能有效降低 J_{cv}(\theta)

最后,下图展示欠拟合 / 过拟合情况的学习曲线。当这曲线都是理想化,实际中存在大量噪声。但总体曲线的趋势跟上图曲线一样。

总结:通过逐步增加训练集,绘制学习曲线来判断增加数据集是否对模型有用。

总结

调试方法和适用情况

调试方案 适用情况
使用更多的训练样本 模型处于过拟合
减少特征数 模型处于过拟合
增加特征数 模型处于欠拟合
增加多项式特征 模型处于欠拟合
减小正则化参数 模型处于欠拟合
增加正则化参数 模型处于过拟合

欠拟合 / 过拟合的判断:通过逐步增加训练集,绘制学习曲线来判断增加数据集是否对模型有用。

欠拟合 / 过拟合的特征:

欠拟合:J_{train}(\theta)J_{cv}(\theta) 值都很大;
过拟合:J_{train}(\theta) 值很小,且 J_{cv}(\theta) >> J_{train}(\theta)

补充

最后,看看神经网络和欠拟合 / 过拟合。“较小”的神经网络(隐藏层少或者神经元少)计算资源消耗较小, 但是容易出现欠拟合的问题;而“较大”的神经网络计算资源消耗较大, 但是容易出现过拟合的问题

通常使用越大型的神经网络性能越好。如果出现过拟合问题,使用正则化参数 \lambda 进行修正。

而隐藏层的层数选择可以通过使用上述的交叉验证法。

上一篇下一篇

猜你喜欢

热点阅读