什么是集成学习?Bagging模型+决策树=随机森林

2020-09-13  本文已影响0人  ShowMeCoding

1 集成学习——投票

在学习了KNN、逻辑回归、决策树和随机森林等算法之后,如何综合利用这几种算法,从而放大每个算法的优势,我们采取投票的方式,即就是少数服从多数的方法对算法进行集成学习。

2 Hard voting和Soft voting

以一个二分类问题(A/B两类)为例,对两种投票方式进行说明:

模型1: A-95%; B-5%
模型2: A-40%; B-60%
模型3: A-90%; B-10%
模型4: A-45%; B-55%
模型5: A-49%; B-51%

3 集成学习的要求

从上面的计算过程中,我们不难看出,获得最终投票结果的前提是集合的每一个模型都能估计出每个类别的概率值
KNN近邻:可以预测属于某一个类别的概率
逻辑回归:是基于概率模型的
决策树:预测属于某一个类别的概率

4 集成学习之Bagging模型

4.1 Bagging模型为什么要抽样?

虽然有很多的机器学习算法,但是从投票的角度来看,模型的数量依然有限,因此需要创建更多的子模型,来集成更多子模型的意见

通过这种集成学习方法,每一个子模型不需要太高的准确率,而整体就可以得到非常高的准确率,即用多个弱学习器实现强学习器的效果,Bagging模型子模型之间不能一致,要有差异性,为了让子模型具有差异性,我们采取抽样的方式,让每个子模型只学习样本数据的一部分。例如:一共有1000个样本;每个子模型只学习100个样本数据。

4.2 有放回抽样和无放回抽样的区别是什么?

(1)有放回抽样

在一轮抽样期间,每次抽完一个数据,就立马把该数据放回。如果一轮要抽样n个数据,那么就会有n次数据的放回动作。

(2)无放回抽样

它是在逐个抽取个体时,每次被抽到的个体,不放回总体中参加下一次抽取的方法。采用不重复抽样方法时,总体单位数在抽样过程中逐渐减小,总体中各单位被抽中的概率先后不同。不放回抽样也指整个样本一次同时抽取的抽样方法。

(3)主要区别

有放回抽样,每次的结果互不影响,无放回抽样,之前的抽样结果会影响之后的结果。

4.3 什么是包外数据?它有什么用处?

放回取样导致一部分样本很可能没有被取到,平均大约有37%的样本没有被取到,这些数据叫包外数据,Out-Of-Bag(OOB),因此可以在不用使用测试集的情况下,使用这些包外数据进行模型测试。

4.4 Bagging模型为什么可以做并行化运行?

因为个体学习器之间不存在强依赖关系,各个预测函数可以并行生成,可同时生成的并行化算法。

5 理解Random Forest和ExtraTress的性质

5.1 Random Forest 的随机性体现在哪些方面?

5.2 训练同样的数据集,Random Forest为什么比Bagging的效率要高?

随机森林对Bagging只做了小改动,但是与Bagging中基学习器的“多样性”仅通过样本扰动(通过对初始训练集采样)而来不同,随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升。
随机森林的训练效率常优于Bagging,因为在个体决策树的构建过程中,Bagging使用的是“确定型”决策树,在选择划分属性时要对结点的所有属性进行考察,而随机森林使用的“随机型”决策树则只考察一个属性子集

5.3 ExtraTress和Random Forest 的不同之处在哪儿?

上一篇 下一篇

猜你喜欢

热点阅读