10.应用机器学习的建议(Advice for applying
2019-03-19 本文已影响0人
justinwei
第六周 lecture 10
对于一个线性回归
当发现预测值不对时,可能的步骤包括以下:
- 获得更多的训练数据 (Get more training examples) - 欠拟合
- 尽量减少特性(try smaller sets of features) - 过拟合
- 得到更多的特性(try getting additional features) - 欠拟合
- 增加特性的阶 (try adding polynomial features(
),etc) - 欠拟合
- 增加
(try decreasing
) - 过拟合
- 减小
(try increasing
) - 欠拟合
- 评估假设(Evaluation a hypothesis)
1).将数据集按以下比例分拆:
数据占比 | 描述 |
---|---|
60% | 训练集Training set |
20% | 验证集 cross validation set |
20% | 测试集 test set |
2). 误差(error)计算
交叉验证误差(cross validation error)
3). 误差分析
- 偏差大/欠拟合(bias/under-fit)
- 过拟合(variance)
-
多项式的阶数 (degrees of polynomial)
多项式的阶数vs误差
$\lambda$vs误差
-
学习曲线(Learning curves)
高偏差曲线(High bias), 增加训练数据量无法解决欠拟合问题。
高偏差曲线
过拟合(High variance) 增加训练数据量可以解决问题过拟合的问题。
High variance
- 神经网络与过拟合(neural networks and overfitting)
- 更小的神经网络(更少的参数;更倾向欠拟合)
- 更大的精经网络(更多的参数;更倾向过拟合),增加
值解决过拟合。
神经网络与过拟合