工作

随机森林模型(RF)

2019-07-23  本文已影响8人  GQRstar

1.集成学习简述

        集成学习通过构建多个学习器,将结果进行整合,已获得比单一学习器更好的泛化性能。目前集成学习方法分类两类,一类的Boosting算法,学习器之间有较强的依赖关系,串行学习;另一类是Bagging算法,学习器之间无依赖关系,可以并行学习,随机森林(Random Forest,RF)是典型的Bagging集成学习算法。

2.Bagging与随机森林

        Bagging是“Bootstrap aggregation”的简写,代表一种自主采样法:从原始数据集中,有放回地重采样n个样本,形成一个新的数据集;假设每个样本的维度是a,,再随机抽取k个特征训练一个决策树;以上两步重复m次,就得到随机森林模型(m个决策树),最终通过投票的方式得到最终预测结果。
        Bagging算法是一种集合模型训练的框架,通过多次抽样训练多个弱学习器,集合弱学习器(弱学习器低偏差,高方差)的结果提高模型的泛化能力。如果弱学习器是决策树,多个决策树模型就构成随机森林,弱学习器还可以是其他学习器。

3.决策树的训练

        决策树属于非参数学习算法,可用于解决分类和回归的问题。回归问题的结果是叶子结点的样本平均值。
决策树的构建步骤主要分为三部分:

4.随机森林的优缺点

优点
缺点
参考链接

(如有不同见解,望不吝赐教!!!)

上一篇 下一篇

猜你喜欢

热点阅读