随机森林

2019-09-15 本文已影响0人 wzNote

概念

监督学习，兼顾了分类问题和回归问题
森林：一定数量的决策树
随机：1.在总数为N的样本中随机选择k个；2.在M个特征中随机选择m个

优点

既可以用于分类又可以解决回归问题
作为分类器时，即使由部分数据缺失，随机森林也能保持很高的分类精确度
决策树的的增加并不会引起随机森林的过拟合
它可以对数量庞大的较高维数据进行分类，并且不用做特征选择
训练完后，能够给出哪些特征比较重要
容易做成并行化方法，速度比较快
可以进行可视化展示，便于分析

缺点

能够很好地解决分类，但不能很好的解决回归，因为在本质上它是不连续的
在解决回归问题时，随机森林并不能为训练数据以外的对象给出答案，训练数据噪声较大也会造成过度拟合

算法流程

假设样本有N个数据，每次从这些样本中选取一些，每次取出的不完全相同，这些样本作为决策树的训练数据组
假设每个数据点都有M个特征，则在每个节点处随机选m(m<M)个特征
把m分裂成两个部分，再用m最佳的分裂方案对节点进行分裂，决策树成长期间m的大小始终不变，每棵树都要完全成长而不被修剪
把每一颗树的预测结果累加起来，从而得到整个随机森林的预测结果

上一篇下一篇

猜你喜欢

热点阅读