随机森林模型(RF)

2019-07-23 本文已影响8人 GQRstar

1.集成学习简述

集成学习通过构建多个学习器，将结果进行整合，已获得比单一学习器更好的泛化性能。目前集成学习方法分类两类，一类的Boosting算法，学习器之间有较强的依赖关系，串行学习；另一类是Bagging算法，学习器之间无依赖关系，可以并行学习，随机森林(Random Forest,RF)是典型的Bagging集成学习算法。

2.Bagging与随机森林

Bagging是“Bootstrap aggregation”的简写，代表一种自主采样法：从原始数据集中，有放回地重采样n个样本，形成一个新的数据集；假设每个样本的维度是a,，再随机抽取k个特征训练一个决策树；以上两步重复m次，就得到随机森林模型(m个决策树)，最终通过投票的方式得到最终预测结果。
Bagging算法是一种集合模型训练的框架，通过多次抽样训练多个弱学习器，集合弱学习器(弱学习器低偏差，高方差)的结果提高模型的泛化能力。如果弱学习器是决策树，多个决策树模型就构成随机森林，弱学习器还可以是其他学习器。

3.决策树的训练

决策树属于非参数学习算法，可用于解决分类和回归的问题。回归问题的结果是叶子结点的样本平均值。
决策树的构建步骤主要分为三部分：

特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准，如何选择特征有着很多不同量化评估标准标准，从而衍生出不同的决策树算法。典型的算法包括：ID3、C4.5、CART算法。
决策树生成:根据选择的特征评估标准，从上至下递归地生成子节点，直到数据集不可分则停止决策树停止生长。树结构来说，递归结构是最容易理解的方式。
剪枝:决策树容易过拟合，一般来需要剪枝，缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。

4.随机森林的优缺点

优点

可以处理很高维度的数据，特征子集经过随机抽取
可以得到特征重要度
训练速度快，容易并行化

缺点

在解决回归问题时，效果并不理想
在小数据或者低维数据时，优势不明显

参考链接

(如有不同见解，望不吝赐教!!!)