集成学习各方法的理解
2016-09-06 本文已影响0人
任海亮
统计方法
bootstraping(自助法)源自“pull up by your own boot straps”
有放回抽样,多轮抽样分析
这是统计学的一种分析方法
应用:
bagging (bootstrap aggregating)
多轮随机有放回抽样(因为有放回,通常包括63%原数据)
训练结果预测函数多数投票
均匀抽样,预测函数无权重
效果:reduce variance
boosting
抽样有权重
每轮抽样考虑前所有轮训练结果,对错误率大的加大权重
预测函数有权重,按权重投票
gradient boosting
运用梯度下降方法改进模型:改进BIAS
random forest
决策树的集合
抽样分行采样,列采样
每颗决策树:1.随机有放回抽取样本,2.选取部分feature而不是全部 (对feature也做了抽样)【与bagging的区别】
平均投票
效果:进一步降低 variance, and robust to noise
generlization error无偏估计
一般prediction的误差可以分解为:bias variance noise
集成学习的目的就是降低误差率