AdaBoost算法

2018-07-18 本文已影响0人洛克黄瓜

基于数据集多重抽样的分类器

将不同的分类器组合起来，这种组合结果成为元算法

bagging:基于数据随机重抽样的分类器构建方法

自举汇聚法，也称为bagging方法；从原始数据集选择S次后得到S个新数据集的一种技术（抽样又放回，所以数据集中会有重复）
将某算法分别作用于S个数据集建立S个分类器，然后分类，选择出现最多次数的预测结果作为最终预测结果
随机森林，是更先进的bagging方法，可以谷歌了解下

boosting

boosting跟bagging类似，但不同的分类器是通过串行训练而获得的
boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器
boosting的分类器的权重不相等，每个权重代表的是其对应分类器在上一轮迭代中的成功度
这里谈的是最流行的版本，AdaBoost

训练算法：基于错误提升分类器的性能

基于弱分类器和多个实例构造一个强分类器
训练数据中的每一个样本，开始赋予相等的权重值，构成向量D。第二次训练时，会对第一次分类错误的样本提高权重。计算出新的D后，继续下一轮迭代。
多次迭代后就出现了多个弱分类器

基于单层决策树构建弱分类器

基于单个特征的决策树就是个弱分类器
错误率达到要求或者弱分类器数量达到一定量就停止迭代

混淆矩阵

混淆矩阵
正确率：TP/(TP+FP)
召回率：TP/(TP+FN)
对于样本的非均衡问题的数据抽样方法：欠抽样（删除样例过多的样本）、过抽样（复制样例过少的样本）

上一篇下一篇

猜你喜欢

热点阅读