随机森林
2019-03-30 本文已影响0人
你好旧时光912
随机森林 :集成学习算法
集成学习:将多个模型进行组合来解决单一的预测问题。它的原理是生成多个分类器模型,各自独立地学习并作出预测。这些预测最后结合起来得到预测结果,因此和单独分类器的结果相比,结果一样或更好。
(1)数据的随机选取
首先,从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。
(2)独立学习进行预测
利用子数据集来构建子决策树,将数据放到每个子决策树中,每个子决策树输出一个结果。
(3)怎么得到分类和回归结果
对于分类问题利用投票法,将最高票的类别用于最终的判别结果。
对于预测利用均值法,将其用作预测样本的最终结果。
待选特征的随机选取
从M个输入特征里随机选择m个输入特征,然后从这m个输入特征里选择一个最好的进行分裂。决策树中分裂属性的两个选择度量:信息增益和基尼指数。