技术心得

决策树核心总结

2018-05-08  本文已影响1人  Eric_i33

网上关于ID3、C4.5、CART的讲解已极为丰富,本文只想聚焦决策树系算法的核心:变量划分,做一些总结,加深对算法核心的认识。

1、决策树的核心

决策树的核心

2、from 自信息 to 信息熵 to 交叉熵 to KL散度

从自信息到信息熵、交叉熵、KL散度的推导

3、离散特征信息增益率计算

给定一个简单的数据集 计算过程

4、连续特征信息增益计算

给定一个简单的数据集

5、如果标记值为连续变量:CART

CART 对于有多个水平的属性A, 分别计算每一种分界后因变量的方差和 选择方差和最小的分界策略作为属性A的最优二分方案 遍历所有属性, 取方差和最小的属性作为分割属性

6、针对特征为离散和连续,标记为离散的过程总结

(1)、针对连续特征,按数值大小进行排序,并在标记发生改变的地方进行分裂,计算信息增益;依次针对每一种分裂情形,计算信息增益,最终选择信息增益最大的分裂情形作为这个特征的最佳分裂点;计算它的信息增益率;

(2)、针对离散特征,计算它的信息增益率;

(3)、在特征的信息增益率间进行横向比较,选择信息增益率最大的特征作为当下最优分裂属性,进行分裂,划分数据子集;

(4)、依次递归重复步骤(1)~(3),直到叶子节点只剩一个水平值(过拟合)或达到停止要求(最大深度阈值、叶子节点最小样本阈值等等,如果是 XGBoost 会有更多需要调参)

上一篇 下一篇

猜你喜欢

热点阅读