决策树与随机森林

2018-03-23 本文已影响0人 tongues

分类问题使用信息增益，信息增益率或者基尼系数；每个节点按少数服从多数定值
回归问题使用均方误差；每个节点按均值定值；
叶子节点的熵的加权平均值必然小于父节点，证明信息是越来越明确；
叶节点的加权平均熵最小的特征优先使用；
特征是连续时，随机取若干值，选取最优值划分；
基尼系数可以当成是熵的一阶泰勒展开，或是方差的加和；
随机森林可以不考虑特征间的耦合关系；
随机森林可以进行特征重要都排序；
使用iForest可以检测异常值，一般异常值会很快到达节点，树比较浅，综合多颗树，即可找到异常值；
随机森林与决策树可以预测多输出值；
回归问题使用MSE，因为连续值很难切分；
回归时，任意取值使得叶节点的加权MSE值最小，则为最佳划分；
重要度排序，gini系数变化性取值的，随机更改误差变化最快的为最重要的
决策树也可以给出概率，它代表训练集该类别的比例

上一篇下一篇

猜你喜欢

热点阅读