模型评估与选择（基本概念）

2018-06-30 本文已影响0人来自乡下的农民工

本章主要的内容为：

1)、如何选择一个评估的实验方法，可以通过该实验方法对学习器的的泛化误差进行评估。

2)、如何选择一种性能度量方法，从而量化一个学习器的学习性能。

3)、如何选择一种性能比较方法，从而进行多个学习器之间的性能比较。

我们把分类错误的样本数占样本总数的比例，称为“错误率”，用E=a/m表示。

1-错误率

将学习器的实际预测输出与样本真实输出之间的差异称为误差。分为训练误差或经验误差（学习器在训练样本上的误差）和泛化误差（学习器在新样本上的误差）。

学习器既不能将样本的特殊属性学习的过好，也不能将普遍适用的样本属性学习的不够。如果将特殊的特性学习的过好，那么可能会将特殊的特性在预测时当做普遍的特性，这样会产生过拟合的情况，反之，如果连基本的特性都没有学习好的话，连一般的特性样本都无法匹配，那么就出现欠拟合的情况。