关于ML数据集的划分（关于验证集）

2019-01-16 本文已影响6人 madeirak

ML中数据集大致有两种划分：

1、训练集、测试集

2、训练集、验证集、测试集

问题是监督机器学习的训练集包含标签，在反向传播（或其他优化器）时就可以学习各个权重。而测试集是用来测试模型的，那么验证集是用来干什么的呢？

答：防止被测模型过拟合。

第一种方法的流程是：在训练集上训练，在每次训练完后在测试集上测试后调整超参。这有一个潜在的问题就是基于给定测试集执行评估的次数越多，不知不觉地过拟合该测试集的风险就越高。从而造成测试结果和泛化结果差距很大。

而第二种方法的流程大致是：在训练集上训练权重，在验证集上评估模型后修改模型（调整超参、增删特征等），获得最佳评估模型后在测试集上测试模型效果。最后的测试集是与被测试模型从未接触的数据，具有效的模型泛化能力测试性。

第二种方法的流程图