随机森林

2019-09-15  本文已影响0人  wzNote

概念

监督学习,兼顾了分类问题和回归问题
森林:一定数量的决策树
随机:1.在总数为N的样本中随机选择k个;2.在M个特征中随机选择m个

优点

  1. 既可以用于分类又可以解决回归问题
  2. 作为分类器时,即使由部分数据缺失,随机森林也能保持很高的分类精确度
  3. 决策树的的增加并不会引起随机森林的过拟合
  4. 它可以对数量庞大的较高维数据进行分类,并且不用做特征选择
  5. 训练完后,能够给出哪些特征比较重要
  6. 容易做成并行化方法,速度比较快
  7. 可以进行可视化展示,便于分析

缺点

  1. 能够很好地解决分类,但不能很好的解决回归,因为在本质上它是不连续的
  2. 在解决回归问题时,随机森林并不能为训练数据以外的对象给出答案,训练数据噪声较大也会造成过度拟合

算法流程

  1. 假设样本有N个数据,每次从这些样本中选取一些,每次取出的不完全相同,这些样本作为决策树的训练数据组
  2. 假设每个数据点都有M个特征,则在每个节点处随机选m(m<M)个特征
  3. 把m分裂成两个部分,再用m最佳的分裂方案对节点进行分裂,决策树成长期间m的大小始终不变,每棵树都要完全成长而不被修剪
  4. 把每一颗树的预测结果累加起来,从而得到整个随机森林的预测结果
上一篇 下一篇

猜你喜欢

热点阅读