第2章模型评估与选择

2018-08-01 本文已影响6人日月一人

错误率公式

分类错误的样本数占样本总数的比例称为“错误率”。精度=1-错误率，即1-E。

学习器在训练集上的误差称为“训练误差”或“经验误差”，在新样本上的误差称为“泛化误差”。

目的是：为了获取泛化误差小的学习器，且无法获知新样本，所以努力使经验误差（训练误差）Min。

然而分类错误率为0，分类精度为100%这种学习器大多数情况都很差。

过拟合和欠拟合

过拟合：学出所有潜在样本的普遍规律，如果把训练样本自身特点作为样本都具有的一般性质，这样导致泛化性能下降。（学习能力过于强大）

（机器学习关键问题：无法彻底避免只能缓解或减小风险）

欠拟合：对训练样本的一般性质尚未学好。（学习能力低下）（容易克服）

2.1 留出法

2.2 交叉验证法

2.3 自助法

2.4 调参与最终模型

暂缺。。。。。。（后续可能补）

第2章 模型评估与选择