决策树

2018-10-16  本文已影响0人  徐振杰

1为什么CART能回归

主要用均方差代替了基尼系数

2缺失值处理

当处理缺失值的时候,一般需要考虑这样两个问题:
1.有缺失值得特征应该在什么时候被选择
2.当被选择的特征有缺失值的时候,我们应该如何对样本进行划分

解决第一个问题:由于C4.5是通过选择信息增益最大的值从而选择特征的,因此我们做的处理就很简单了,只用将在该特征下无缺失值的样本的比例乘上信息增益就可以了。比如得到的信息增益为Gain(a),在a特征下有5个缺失值,总样本数为15,所以最终的信息增益就是\frac{5}{15}Gain(a)

解决第二个问题:如果该样本是缺失值,则以不同的权重分给每个子节点。比如现在有两个子节点,无缺失的样本为1,2,3,4,5,6,分别给第一个子节点1,2,3,第二个子节点4,5,还有缺失样本7,8,把7号子节点分别加入这两个子节点得到1,2,3,74,5,7。但是7号在第一类中的权重为\frac{3}{5},在第二类中权重为\frac{2}{5}

上一篇下一篇

猜你喜欢

热点阅读