实用机器学习技巧 - 如何选择验证集和训练集

2019-08-17  本文已影响0人  Rita_曾小辰

这节课主要解决两个问题

- 验证集的大小如何设定?

- 训练集中有些类别数据量太小怎么办?

验证集的大小如何设定?

这里有个简单的方法来验证。

首先来理解以下,验证集的定义是需要一个数据集来验证我们的模型精确性,如果验证集太小,不够做到符合正态随机分布,那我们的验证集结果就不能用来验证模型的精确性。举个例子,如果你的验证集数据量太小,每一个值都能影响最终的模型预测的均值及标准差,那么这个验证集都不可靠。

具体的验证方法:

- 我们对模型选取一个验证集;

- 对模型进行 5 次完全相同的训练(hyperparameter相同),由于 boostrapping 的原因,这里的系数会细微不同;

- 5 个模型分别对验证集输出;

- 比较 5 个模型输出的标准差,如果标准差很大,则代表你的验证集小了,容易产生偏差。

训练集本身有一个样本类别过小,学习效果不好怎么办?

在做训练集分类问题的时候,我们有时候会遇到某个类别的数量过少,导致学习不充分,毕竟数据量不够是会造成模型学习偏差的。

处理这个问题的办法也很简单,在训练集中复制较少的这个类别的数据多次,尽管听上去没有什么理论支持的样子,但是在实际操作时,这种方法是真实有效的。在许多 kaggle 竞赛上都得到了证实。机器学习的很多理论其实听上去很高大上的名字,但是真实的意义就是非常简单,大家都能理解的意思。但是你需要多实践和融会贯通才能真正理解。

模型的目的,永远是解决问题。

上一篇下一篇

猜你喜欢

热点阅读