决策树处理连续值,缺失值
2017-12-13 本文已影响0人
闫阿佳
简书:决策树会有哪些特性?
知乎:决策树是如何处理不完整数据的?
1. 连续值如何划分?
- C4.5:Information Gain (Ratio) based Threshold
- CART:遍历所有输入变量j 和切分点s,根据最小化平方误差准则选取;
2. 是否能够处理Missing值? 如果能, 是如何处理的?
- 不能处理: --
- 插值法(Imputation): QUEST, CRUISE
- 替代法(Alternate/Surrogate Splits):CART, CRUISE
- 缺失值单独分支(Missing value branch):CHAID, GUIDE
- 概率权重(Probability weights): C4.5
3.决策树是如何处理不完整数据的?
- 采用抛弃缺失值
抛弃极少量的缺失值的样本对决策树的创建影响不是太大。但是如果属性缺失值较多或是关键属性值缺失,创建的决策树将是不完全的,同时可能给用户造成知识上的大量错误信息,所以抛弃缺失值一般不采用。只有在数据库具有极少量的缺失值同时缺失值不是关键的属性值时,且为了加快创建决策树的速度,才采用抛弃属性缺失值的方式创建决策树。 - 补充缺失值
缺失值较少时按照我们上面的补充规则是可行的。但如果数据库的数据较大,缺失值较多(当然,这样获取的数据库在现实中使用的意义已不大,同时在信息获取方面基本不会出现这样的数据库),这样根据填充后的数据库创建的决策树可能和根据正确值创建的决策树有很大变化。 - 概率化缺失值
对缺失值的样本赋予该属性所有属性值的概率分布,即将缺失值按照其所在属性已知值的相对概率分布来创建决策树。用系数F进行合理的修正计算的信息量,F=数据库中缺失值所在的属性值样本数量去掉缺失值样本数量/数据库中样本数量的总和,即F表示所给属性具有已知值样本的概率。 - 缺失值单独分支