知识图谱自然语言处理

Bagging原理解析

2022-07-07  本文已影响0人  晓柒NLP与药物设计

1. 原理

  1. 从原始样本集中有放回抽样,获取训练子集。假设训练集有N个样本,每轮从训练集中有放回的抽取L(L<N)个训练样本。共进行m轮抽取,得到m个训练子集(m个训练集之间是相互独立的);

  2. 每个训练子集训练一个模型m个训练集共得到m个模型;

  3. 对分类问题:投票;回归问题:取均值。

即从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。

2. 实现方式(基于sklearn)

首先它是模型融合的其中一种方法,所以bagging是属于sklearn.ensemble的,bagging有两种,一种是用于回归的BaggingRegressor,另一种是用于分类的BaggingClassifier。

3. 随机森林算法

理解了bagging算法,随机森林(Random Forest)就好理解了。随机森林是Bagging算法的进化版**,也就是说,它的思想仍然是bagging,但是进行了独有的改进。

随机森林(以下简称RF)学习器特点如下:

除了上面两点,RF和普通的bagging算法没有什么不同, 下面简单总结下RF的算法。

4. 随机森林的推广

由于RF在实际应用中的良好特性,基于RF有很多变种算法,应用也很广泛,不光可以用于分类回归,还可以用于特征转换,异常点检测等。下面对于这些基于RF的算法中总结。

4.1 extra trees
  1. 对于每个决策树的训练集,RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集,而extra trees一般不采用随机采样,即每个决策树采用原始训练集。
  2. 在选定了划分特征后,RF的决策树会基于基尼系数,均方差之类的原则,选择一个最优的特征值划分点,这和传统的决策树相同。但是extra trees比较的激进,他会随机的选择一个特征值来划分决策树。
4.2 Totally Random Trees Embedding
4.3 Isolation Forest

s(x,m)=2^{−\frac{h(x)}{c(m)}}

c(m)=2ln(m−1)+2ξ−2\frac{m−1}{m},ξ为欧拉常数

上一篇下一篇

猜你喜欢

热点阅读