实用机器学习技巧 - 如何选择验证集和训练集

2019-08-17 本文已影响0人 Rita_曾小辰

这节课主要解决两个问题

- 验证集的大小如何设定?

- 训练集中有些类别数据量太小怎么办？

验证集的大小如何设定？

这里有个简单的方法来验证。

首先来理解以下，验证集的定义是需要一个数据集来验证我们的模型精确性，如果验证集太小，不够做到符合正态随机分布，那我们的验证集结果就不能用来验证模型的精确性。举个例子，如果你的验证集数据量太小，每一个值都能影响最终的模型预测的均值及标准差，那么这个验证集都不可靠。

具体的验证方法：

- 我们对模型选取一个验证集；

- 对模型进行 5 次完全相同的训练（hyperparameter相同），由于 boostrapping 的原因，这里的系数会细微不同；

- 5 个模型分别对验证集输出；

- 比较 5 个模型输出的标准差，如果标准差很大，则代表你的验证集小了，容易产生偏差。

训练集本身有一个样本类别过小，学习效果不好怎么办？

在做训练集分类问题的时候，我们有时候会遇到某个类别的数量过少，导致学习不充分，毕竟数据量不够是会造成模型学习偏差的。

处理这个问题的办法也很简单，在训练集中复制较少的这个类别的数据多次，尽管听上去没有什么理论支持的样子，但是在实际操作时，这种方法是真实有效的。在许多 kaggle 竞赛上都得到了证实。机器学习的很多理论其实听上去很高大上的名字，但是真实的意义就是非常简单，大家都能理解的意思。但是你需要多实践和融会贯通才能真正理解。

模型的目的，永远是解决问题。

实用机器学习技巧 - 如何选择验证集和训练集

验证集的大小如何设定？

训练集本身有一个样本类别过小，学习效果不好怎么办？

猜你喜欢

热点阅读