机器学习

随机森林算法梳理

2019-04-04  本文已影响0人  凌霄文强
  1. 集成学习概念
    集成学习就是组合多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成学习通过构建并结合多个学习器来完成学习任务。只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的。

  2. 个体学习器概念
    个体学习器是继承学习的基本组成单元。相当于决策树之于随机森林。

  3. boosting bagging

  1. 结合策略(平均法,投票法,学习法)
  1. 随机森林思想
    在决策树的基础上,通过对数据有放回的抽样得到不同的数据集分别训练不同的决策树,在节点分裂时也随机随机选择特征进行分裂,得到多个结果,对结果进行汇总得到最后的结果。

  2. 随机森林的推广
    Isolation Forest

  3. 优缺点

  1. sklearn参数
    Sklearn.ensemble.RandomForestClassifier对随机森林的分类算法进行了实现,以下是经常调整的超参数:
    n_estimators:随机森林中基分类器的数量
    criterion:节点分裂标准
    max_depth:建树的最大深度
    min_samples_leaf:叶子节点所需最小样本数
    max_leaf_nodes:最大叶子节点数,控制树的宽度

    具体应用场景中,超参数的选择很重要,往往通过网格搜索、贝叶斯搜索等找到最优参数组合。

  2. 应用场景

上一篇 下一篇

猜你喜欢

热点阅读