数据挖掘与机器学习

集成学习

2020-02-04  本文已影响0人  清梦载星河

集成学习,即通过构建并结合多个模学习器来共同完成学习任务。集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。通过这种方式,集成学习可以获得比单一学习器显著优越的泛化性能。简单来说,集成学习就相当于用团队力量来解决问题,如何产生并结合团队成员便是集成学习研究的核心。

根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器存在依赖关系、必须串行生成的路劣化方法,以及个体个体学习器间不存在强依赖关系、可同时生成的并行化方法。前者代表是Boosting,后者代表是Bagging。

一、Bagging与随机森林

基本原理:同时训练多个学习机,分别对y进行预测,最后所有子学习机以投票的形式(分类)或者均值的形式(回归),返回集成的预测结果。

子学习机的构建策略:对样本按一定比例有放回的抽样,抽出m个样本子集,然后构建m个子学习机分别在m个样本子集上进行训练。

继承策略:投票法或均值法。

随机森林

二、Boosting

基本原理:先训练一个子学习器,再计算子学习器的误差或残差,并以此作为下一个子学习器的输入,之后不断迭代重复整个过程,使得模型损失函数不断减小。

集大成者:xgboost

首先说说gboosting(gradient boosting),即梯度提升模型,根据当前模型损失函数的负梯度信息来训练新加入的子学习器,然后将所有训练好的子学习器以累加的形式混合到最终模型中。

xgboosting就是极限梯度提升模型。

上一篇下一篇

猜你喜欢

热点阅读