决策树的总结

2018-11-05  本文已影响0人  在做算法的巨巨

决策树的核心思想是分域,
无论是做回归还是分类。

分类方面,决策数的参考变量是 信息增益。
信息熵:数据的无序程度,信息熵越大,数据不确定性越大。H(D)=-\sum_{i=1}^{m}p_i * log(p_i)
信息增益:经验信息熵减去经验条件熵,信息增益越大,说明条件特征越能减小数据的不确定性。gain(D,A)=H(D) - H(D|A)
H(D|A) = \sum_{i=1}^{m}\frac{D_i}{D}H(D_1)
因此,猜想,信息增益可以作为feature selection的一种手段。
决策树中的Id3算法一般用信息增益作为分割判断依据。
信息增益比:信息增益的缺点是特征数据的分布不一,数据多的特征数据增益就会偏大一点,因此,为了减少这些误差,加一个分母,类似与归一化的操作,让数据停留在同一标准下进行比较。
决策树中的C4.5算法采用的便是信息增益比。

gini系数:和信息熵类似的一个变量。1-\sum_{i=1}^{m}p_i
gini系数越大,表示数据不确定性越大。
CART算法采用gini系数进行判断。

每进行一次分隔都会计算一次最优特征,采用递归算法。

回归方面,决策数的参考变量是MSE。
对每个点进行尝试分隔,计算left和right的MSE,结束后,在两侧MSE之和中找出最小的MSE对应的点的位置。左侧取左侧的平均,右侧取右侧的平均,树的层数可以通过设定阈值MSE来实现。迭代算法中知道满足阈值精度停止。这里回归采用了二叉树的思想。

上一篇 下一篇

猜你喜欢

热点阅读