xgboost tree

2018-12-13  本文已影响0人  天禧68

前言

Boosted Tree是数据挖掘和机器学习中国最常用的算法那之一。

Boost额度 Tree起源

GBDT,GBRT(gradient boosted regression tree),MART,LambdaMART也是一种boosted tree的变种。
其中最早的一篇文章是:Friedman写于1999年的文章:Greedy Function Approximation:A Gradient Boosting Machine

有监督学习算法的逻辑组成

回归树介绍

回归树,也叫做分类与回归树,认为就是一个叶子节点具有权重的二叉决策树,它具有以下两个特点:

  1. 使用范围广,像GBM、随机森林等。(竞赛优胜者一半都有用)
  2. 对于输入范围不敏感,所以不需要对输入归一化
  3. 能学习特征之间更高级别的相互关系
  4. 很容易对其扩展

GBDT算法原理

GBDT算法原理与系统设计简介_pdf链接

泰勒公式

泰勒公式是一个用函数在某点信息描述其附近值的公式。(局部有效性)

image.png
梯度下降法(Gradient Descend Method)

求最小化损失函数L,解决一阶泰勒展开式问题

牛顿法(Newton's Method)

解决二阶泰勒公式展开项问题


image.png image.png
目标函数
image.png

square loss:方差
logloss:逻辑回归(对数几率回归)

正则项
image.png

正则项对每课回归树的复杂度进行惩罚

相比原始的GBDT,XGBoost的目标函数多了正则项,使得学习出来的模型更加不容易过拟合。

杂记

bias由训练误差控制
variance由正则项控制

方法=模型+策略+算法

上一篇 下一篇

猜你喜欢

热点阅读