决策树的总结

2018-11-05 本文已影响0人在做算法的巨巨

决策树的核心思想是分域，
无论是做回归还是分类。

分类方面，决策数的参考变量是信息增益。
信息熵：数据的无序程度，信息熵越大，数据不确定性越大。 $H(D)=-\sum_{i=1}^{m}p_i * log(p_i)$
信息增益：经验信息熵减去经验条件熵，信息增益越大，说明条件特征越能减小数据的不确定性。 $gain(D,A)=H(D) - H(D|A)$
$H(D|A) = \sum_{i=1}^{m}\frac{D_i}{D}H(D_1)$
因此，猜想，信息增益可以作为feature selection的一种手段。
决策树中的Id3算法一般用信息增益作为分割判断依据。
信息增益比：信息增益的缺点是特征数据的分布不一，数据多的特征数据增益就会偏大一点，因此，为了减少这些误差，加一个分母，类似与归一化的操作，让数据停留在同一标准下进行比较。
决策树中的C4.5算法采用的便是信息增益比。

gini系数：和信息熵类似的一个变量。 $1-\sum_{i=1}^{m}p_i$
gini系数越大，表示数据不确定性越大。
CART算法采用gini系数进行判断。

每进行一次分隔都会计算一次最优特征，采用递归算法。

回归方面，决策数的参考变量是MSE。
对每个点进行尝试分隔，计算left和right的MSE，结束后，在两侧MSE之和中找出最小的MSE对应的点的位置。左侧取左侧的平均，右侧取右侧的平均，树的层数可以通过设定阈值MSE来实现。迭代算法中知道满足阈值精度停止。这里回归采用了二叉树的思想。

决策树的总结

猜你喜欢

热点阅读