决策树
2018-10-16 本文已影响0人
徐振杰
1为什么CART能回归
主要用均方差代替了基尼系数
2缺失值处理
当处理缺失值的时候,一般需要考虑这样两个问题:
1.有缺失值得特征应该在什么时候被选择
2.当被选择的特征有缺失值的时候,我们应该如何对样本进行划分
解决第一个问题:由于C4.5是通过选择信息增益最大的值从而选择特征的,因此我们做的处理就很简单了,只用将在该特征下无缺失值的样本的比例乘上信息增益就可以了。比如得到的信息增益为,在a特征下有个缺失值,总样本数为,所以最终的信息增益就是。
解决第二个问题:如果该样本是缺失值,则以不同的权重分给每个子节点。比如现在有两个子节点,无缺失的样本为,分别给第一个子节点,第二个子节点,还有缺失样本,把号子节点分别加入这两个子节点得到和。但是7号在第一类中的权重为,在第二类中权重为