【ML】集成学习

2023-03-08  本文已影响0人  盐果儿

1. 模型选择

- 选择在测试集误差较小的模型

    - 缺点:面对未知数据表现不好

- 集成学习

    - 缺点:集成模型组合可能会比其中性能最好的模型要差

    - 优点:降低了整体模型选择不当的风险

        - 原因:多样性

            - 使用不同数据集训练每一个分类器,eg: bootstrapping or baggin

            - 使用弱分类器,或者不稳定模型

2. 数据太多/太少

- 数据量太大:划分为较小的子集,单独训练分类器,再使用恰当的方法对分类器输出进行组合。

- 数据量太小,那么使用bootstrapping技术可以从总体数据集中有放回的随机采样获得多个样本集,每个样本集作为训练集对分类器进行训练,这些样本集可以看作是从总体分布中得到的独立样本集。

3. 分而治之

从某种意义上来说,集成学习系统遵循一种分而治之的方法,将数据空间划分为更小、更易于学习的分区,其中每个模型只学习其中一个更简单的分区。然后通过不同方法来适当组合模型的输出来近似复杂决策边界。

4. 数据融合

5. 置信度估计

二、模型集合的组合方法

1. 线性组合

2. 乘积组合

3. 投票组合

三、模型集合的学习算法

- 鼓励多样性

    - 数据集的随机差异

        - 样本选择:bagging

        - 特征选择:Random Subspaces or rotation forests

        - 两者融合:the random forests algorithm

- Example

    - Bagging

        - Bagging also known as bootstrap aggregation, is the ensemble learning method that is commonly used to reduce variance within a noisy dataset. In bagging, a random sample of data in a training set is selected with replacement—meaning that the individual data points can be chosen more than once. 

    - Boosting

        - 后续模型应该能够补偿早期模型所造成的错误。

    - Mixtures of Experts

        - https://zhuanlan.zhihu.com/p/542465517

Reference:

https://www.jianshu.com/p/3e8c44314be5

https://blog.csdn.net/weixin_51545953/article/details/127347671

https://www.jianshu.com/p/99d676bcd812

https://www.ibm.com/topics/bagging#:~:text=Bagging%2C%20also%20known%20as%20bootstrap,be%20chosen%20more%20than%20once.

同道中人

https://www.jianshu.com/u/1438cea749b7

上一篇下一篇

猜你喜欢

热点阅读