集成学习算法

2019-01-26  本文已影响83人  longsan0918
  1. 什么是集成学习算法?
    集成学习算法就是将多个弱分类器(回归器)合并,组合成一个新的学习器

2.为什么用集成学习算法?

3 Bagging 方法
自举汇聚法 有放回的采样 从M个样本的数据集中抽取S个数据集,每个数据集包含M个样本,S个数据集中有重复数据,去重,组成新的数据集训练模型,然后使用多数表决法和求均值的方式统计最终的结果


image.png

4 随机森林(Random Forest)
从Bagging策略基础上进行修改的一种算法

决策树与随机森林的比较
做分支的时候 : 决策树考虑所有属性,随机森林是随机选取的属性

构建方式: 决策树从原始的K个特征中,每个特征都找到当前特征的最优分割点,然后基于最优分割点,找到最优分割属性
随机森林 随机抽取k个特征,找个每个特征的最优分割点,然后找到最优分割属性

随机森林算法:
1、随机有放回抽样,选取S个数据集,建立S个模型。
2、在每一个基模型构建过程中,对于划分决策树时,随机选择K个特征进行划分。

随机森林算法本身(bagging方法),不会对原有数据集中的数据内容进行改变,只是对数据集进行随机抽样。

5 RF(Random Forest)推广算法

Extra Tree

是RF的一个变种,原理与RF相同
区别: 1 RF随机重采样作为决策树的训练集,Extra Tree每个子决策树采用原始数据集训练
2 RF 在选择划分特征点的时候与传统的决策树一样,基于信息增益,信息增益率,gini系数,均方差选择最优特征值,Extra Tree会随机选一个特征值划分决策树

TRTE

非监督数据转化方式 将低维数据映射到高维,从而让映射到高维数据更好的应用到分类回归模型

IForest

异常点检测算法

RF的优缺点

--- 优点 ----

--- 缺点 ---

上一篇下一篇

猜你喜欢

热点阅读