机器学习入门笔记系列(7) | 评估机器学习算法
如果你喜欢本文的话,不妨点赞、分享或者关注公共号「数据搬瓦工」,上面会同步更新文章。
如何有错误之处,还望大家指点,我将及时修改。
本文重点讲解「评估机器学习算法」
一、评估学习算法
1.1 调试算法的方法
假设你已经实现了正则化线性回归模型去预测房价。然而,当你用新的测试数据集去测试你的模型,你发现预测结果与真实值有很大误差。接下来你应该怎么做?
这里有以下几种调试方法:
- 使用更多的训练样本(get more training examples);
- 减少特征数(try smaller sets of features);
- 增加特征数(try getting additional features);
- 增加多项式特征,如 ;
- 减小正则化参数 ;
- 增加正则化参数
注意,不要盲目随机选择一种调试方法,否则会造成时间上的浪费且得不到效果。下面会介绍评价模型的方法并选择合适的调试方法。
1.2 评估假设(Evaluating a Hypothesis)
为了能有效地评估假设, 先要将数据集分成两个部分:训练集(training set),测试集(test set)。通常,将 70% 数据集划分为训练集,30% 的数据集划分为测试集。注意,在数据集分割的时候, 最好先打乱数据的顺序, 以免数据集本身的顺序对我们的评估造成影响。
训练集和测试集的划分模型训练、测试过程如下:
- 使用训练集去最小化 和学习参数 ;
- 代入测试集计算测试误差 。
测试误差 计算
对于回归问题, 的计算与回归模型的待机函数计算公式一样,但 不需要正则化处理;
而对于分类问题,测试误差是统计错误分类的比例,其计算方法如下:
分类问题的测试误差计算1.3 模型选择:交叉验证(Cross Validation, CV)
即使一个模型对训练集拟合效果很好,也不能说明它是一个好模型。比如过拟合情况,它对训练集拟合效果好,但泛化能力差对新数据预测结果差。
那么, 如何量化表示模型的泛化能力 / 泛化误差?
你可能会想着采用测试误差作为泛化误差。但这不是一个好方法。请看下面的例子。
当你有以下 10 个模型假设可供选择,
- 我们将数据集划分为训练集和测试集;
- 对每一个模型假设,用训练集最小化 并学习参数 ;
- 然后计算每一个模型假设的测试误差 ;
- 然后选择最小的 作为最终的模型假设,比如 最小,选择假设 ;
- 模型的泛化误差等于测试误差。
乍一眼看过去,这种方法是没问题的。实际上,用测试误差代表泛化误差是不合理的。
用测试误差代表泛化误差是不合理的。选中的模型是基于这几个模型假设中最小的测试误差 。而又将测试误差作为模型的泛化误差,其实是对模型的泛化误差过于乐观的估计。
交叉验证法(CV)
解决上述问题的方法,就是再增加一个集合:验证集(Cross Validation Set),作为中间的过渡层。具体的数据集划分方法如下:
- 训练集(一般占 60%);
- 验证集(一般占 20%);
- 测试集(一般占 20%)。
模型选择就变为:
- 我们将数据集划分为训练集、验证集和测试集;
- 对每一个模型假设,用训练集最小化 并学习参数 ;
- 然后计算每一个模型假设的验证误差 ;
- 然后选择最小的 作为最终的模型假设,比如 最小,选择假设 ;
- 然后计算选中假设的测试误差 ,且模型的泛化误差等于测试误差。
验证集作为中间层用于选择模型,而测试误差不再作为选择模型的标准。此时,测试误差作为泛化误差更为合理。
计算方式PS:学习参数 时,即计算 需要正则化;而计算 不需要正则化。用下面代码理解:
[theta] = trainLinearReg(X, y, lambda); # 学习参数 theta,需要正则化
J_train(i) = linearRegCostFunction( X, y, theta, 0); # 训练集误差,不需要正则化,故函数最后一个参数是lambda = 0
J_cv(i) = linearRegCostFunction( Xval, yval, theta, 0); # 验证误差,不需要正则化,故函数最后一个参数是lambda = 0
二、诊断欠拟合(underfitting) / 过拟合(overfitting)
2.1 判断欠拟合 / 过拟合
欠拟合(又称为高偏差,high bias)和过拟合(又称为高方差,high variance),这两种情况表现形式如下图所示。欠拟合是模型对训练集拟合效果太差,过拟合时模型对训练集拟合效果太好导致泛化能力太差。
欠拟合和过拟合结合上面所讲的交叉验证法,学习如何判断欠拟合 / 过拟合:
欠拟合: 与 值都很大;
过拟合: 值很小,且
2.2 正则化与欠拟合 / 过拟合
正则化也会对模型产生影响,如下图所示。
过大的正则化参数,会导致受惩罚的参数 变得过小且趋近于 0 ,,最后导致欠拟合;过小的正则化参数,可能会导致过拟合。
正则化参数产生的欠拟合 / 过拟合总之,正则化参数 过大,可能会欠拟合; 过小,可能会过拟合。
如何选择合适的正则化参数 ?步骤如下:
- 创建待选 λ 列表,如 ;
- 遍历所有 λ 并将每一个 λ 代入中模型中,学习参数 ;
- 再使用得到的参数 ,计算每个模型的验证误差 ;
- 选择验证误差最小的模型假设,其 λ 值就是该模型合适的正则化参数。
举个例子,模型假设如下图所示。
- 创建待选正则化参数列表{0,0.01,0.02,...,10};
- 对应每一个 λ 最小化模型的代价函数得到参数 ,一个 λ 对应一个参数 ;
- 对应计算出各自的验证误差 ;
- 选最小验证误差,假设是 λ =0.08 时验证误差最小。故此 λ =0.08 是该模型较为合适的正则化参数。
三、学习曲线
学习曲线可以帮助我们判断模型处于欠拟合或者过拟合。学习曲线是误差关于训练集大小的函数。
当训练集很小的时候,如训练集只有 1或者2或者3个数据时,模型很容易拟合,此时训练误差 就很小,但模型此时泛化能力差,故此时验证误差 就很大;但随着训练集增大,模型拟合效果越来越差,而泛化能力增强,此时 增大, 减小;
关键的地方来了
如果模型处于欠拟合状态,本身拟合效果不好,随着训练集增加到一定程度再增加时, 无法有效降低,并且最后 ;
如果模型处于过拟合状态,。但随着训练集增加,两者的差距逐渐减小,且能有效降低 。
最后,下图展示欠拟合 / 过拟合情况的学习曲线。当这曲线都是理想化,实际中存在大量噪声。但总体曲线的趋势跟上图曲线一样。
总结:通过逐步增加训练集,绘制学习曲线来判断增加数据集是否对模型有用。
总结
调试方法和适用情况
调试方案 | 适用情况 |
---|---|
使用更多的训练样本 | 模型处于过拟合 |
减少特征数 | 模型处于过拟合 |
增加特征数 | 模型处于欠拟合 |
增加多项式特征 | 模型处于欠拟合 |
减小正则化参数 | 模型处于欠拟合 |
增加正则化参数 | 模型处于过拟合 |
欠拟合 / 过拟合的判断:通过逐步增加训练集,绘制学习曲线来判断增加数据集是否对模型有用。
欠拟合 / 过拟合的特征:
欠拟合: 与 值都很大;
过拟合: 值很小,且
补充
最后,看看神经网络和欠拟合 / 过拟合。“较小”的神经网络(隐藏层少或者神经元少)计算资源消耗较小, 但是容易出现欠拟合的问题;而“较大”的神经网络计算资源消耗较大, 但是容易出现过拟合的问题
通常使用越大型的神经网络性能越好。如果出现过拟合问题,使用正则化参数 进行修正。
而隐藏层的层数选择可以通过使用上述的交叉验证法。