AI数学基础16——训练/验证/测试集
2018-05-23 本文已影响15人
LabVIEW_Python
参考文献:Andrew Ng《Setting up your ML application》
应用型机器学习,是一个高度迭代的过程,如下图所示
在迭代过程中,首先要配置训练(Train)、验证(dev)和测试(test)数据集。
当数据规模较小的时候,比如100/1000/1万/几万 条数据,可以按照60%训练、20%验证、20%测试来划分。
当数据规模较大的时候,比如几百万条数据,就不需要按照上面的比例;验证集的目的是验证不同的算法,检验那种算法更有效。例如,100万条数据,可能1万条数据就足以验证算法了,更甚者,1000条数据就足够评估分类器性能了。
Andrew Ng建议:由于要用验证集来评估不同的模型,所以要确保验证集和测试集的数据来自同一分布
测试集的目的是对最终所选定的神经网络做出无偏估计,如果不需要无偏估计,也可以不设置测试集。若只有训练集和验证集,在训练集上训练,尝试不同的模型框架,在验证集上评估这些模型,然后迭代并选出适用的模型。