集成学习器
2019-05-09 本文已影响0人
D_Major
将多种模型集合到一起, 降低误差和过拟合程度
Bagging / Bootstrap aggregating
将训练集抽出放回随机采样地分成m部分(袋子), 抽出放回是指每次都从整个训练集抽取, 每个袋子中可以有重复的, 则袋子中的样本具有唯一性, 所以袋子中的数量可以等于整个训练集的数量.
之后将m个训练样本输入到m个模型中, 对y求均值
比如10个1NN模型组成集成学习器, 每一个的输出都会过拟合, 但是10个的输出求均值则输出曲线较为平缓, 拟合情况较好.
Boosting
Bagging的加强版, 最有名的是Ada Boost, 其原理是每次都将之前误差大的增加权重, 在新创建的袋子中更有可能被选到. 每次测试用整个训练集做测试, 其余同Bagging, 输出y求均值