机器学习笔记---模型评估与选择

2019-12-03 本文已影响0人孤烛

1.过拟合

经验误差是指学习器在训练集上的误差，经验误差并非是越小越好。当经验误差过小，可能把训练样本自身的一些特点当成了所有潜在样本都具有的性质，这导致学习器的泛化代表性下降，术语叫做“过拟合”。
过拟合无法避免，只能尽量的减少。我们在评估一个模型或者选择的模型，通过“泛化误差”来评价。泛化误差越小，模型约优！

2. 评估方法

2.1留出法

简单的说，把样本分为两部分，一部分用于训练，一部分用于验证。需要注意几点：

样本的划分要尽可能的保持数据分布一致性。
对一个样本集进行多次随即划分，重复实验，取平均值。
一般将 $\frac{2}{3}$ ~ $\frac{4}{5}$ 样本用于训练。

2.2交叉验证法

将数据集分为 $k$ 个大小相似的互不包含的子集。然后每次用 $k-1$ 个子集的并集作为训练集，余下的那个子集当作测试集。这样可以进行 $k$ 次训练和测试。
常用的有“留一法”，即将 $m$ 组数据分为 $m$ 组。

2.3自助法

从包含 $m$ 个样本的样本集合 $D$ 中随机抽取样本 $m$ 次，放入一个新的样本集合 $D'$ 。当 $m$ 趋于无限大，有
$\lim_{m\to \infty}(1-\frac{1}{m})^{m}=\frac{1}{e}\approx 0.368$
即样本集 $D$ 中有 $36.8\%$ 的样本未出现在 $D'$ 中。然后用 $D'$ 做训练集，用 $D\backslash D'$ 做测试集。( $\backslash$ 是集合的减法)

3.性能度量

给定样例集 $D=\{ (x_1-y_1),(x_2-y_2), \cdots ,(x_m-y_m)\}$ 。
最常用的性能度量的标尺是“均方误差”：
$E(f;D)=\frac{1}{m}\sum_{i=1}^{m}({f(x_i)-y_i})^2$
更一般的，对于数据分布 $D$ 和概率密度函数 $p(\cdot)$ ,均方误差可以描述为：
$E(f:D)=\int_{x\sim D}(f(x)-y)^2p(x)dx$

3.1错误率和精度

错误率是分类错误的样本数量占样本总数的比例。精度则是分类正确的样本数量占样本总数的比例。对于样例集 $D$ ,分类错误率定义为：
$E(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(x)\neq y_i)$
精度定义为：
$acc(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(x)= y_i)=1-E(f;D)$
更一般对于数据分布 $D$ 和概率分布 $p(\cdot)$ 描述不再赘述。

3.2查准率、查全率与 $F1$

通俗的说。学习器将样例集分预测分成真假两部分。
查准率的意思是，在学习器检索出来的“真”样例中，实际确实为真的样例所占的比例。
查全率的意思是，整个样例集中的所有的真样例中有多少比例被机器正确的检索出来了。
查准率和查全率是一对矛盾的度量，一般来说查准率高时，查全率往往低，而查全率高的时候，查准率往往低。