1-4 决策树的几点补充

2018-12-09  本文已影响0人  迪丽娜扎

包括:连续值处理、缺失值处理、使用多变量进行节点划分。

1. 连续值处理

决策树进行节点划分一般是针对离散值的,但是对于一个本质上是连续值的特征怎么办呢?比如身高这种东西。需要说明的是,毕竟我们的训练集是有限的,所以连续值也只有有限个摆在那里。那我们直接按照离散值进行处理吼不吼呀?不吼,因为每个人的身高都各不相同,这样强行离散划分必然导致严重的过拟合。

(1)把连续值分成两个区间进行子集划分

连续值的处理也很简单,分成两个区间就可以了,比如分成一米七以下的和大于等于一米七的,所以对连续值的处理就是每次划分成两个子集

(2)连续值的分界点如何选择

那么到底是以一米七为界限划分,还是以一米七五呢?因为是划分为两个子集,我们仍然可以考察划分后的信息增益、信息增益比或基尼系数。所以我们可以遍历所有可用的分界点,然后看看哪个分界点带来的信息增益等指标最优,然后就选哪个分界点

(3)连续值的特殊之处

连续特征与离散特征最大的不同,是特征可以复用。比如男女这种离散特征,划分了之后子集的性别属性就是确定的,没办法再用了。但是当我们把样本划分为一米七以上的和一米七以下的之后,对于一米七以下的这个子集,我们仍然可以用身高这个特征继续划分为一米六以上的和一米六以下的,这就叫特征可以复用。

(4)连续值特征与回归树

对连续值的不断划分,使分类树晋级为回归树。只不过这种“回归”和平时理解的线性拟合不太一样,回归树更像是使用较精细的离散对回归的近似。不过无所谓了,能用就行。

2. 缺失值处理

我们准备用性别对样本集进行划分了,结果某些样本的性别不明确无法判断其男女怎么办,这个问题在当今这个社会已经愈发明显了(捂脸哭)。答案是让同一个样本以不同的概率划分到不同的子节点中去。举个栗子:假设有10个人,6个男人2个女人2个不明确,那么按性别划分后,这2个性别不明确的样本,最简单的划分方式就是把每个样本按0.75:0.25的比例分别划分到男节点和女节点中去。当然也有别的调整权重的机制,但具体就不细说了。

3. 多变量决策树

之前说到决策树进行节点划分时,总是选取某一个特征,比如性别比如地域比如年龄身高等等。这样的划分,直观来向就是在特征空间划了一批平行于特征轴的分界线。

但我们也可以采用特征组合的方式进行划分比如使用年龄和身高的加权求和,大于某个值一个节点,小于一个值一个节点。这样的分界线在特征空间里就不平行于特征轴了。

以上这个栗子呢,并不严谨。严格的多变量决策树有两点需要注意:第一特征全是连续值,第二每次划分都是以全部特征的线性组合来划,而不是选取一部分。(当然如果线性组合中一个特征的权重为0的话跟没有也就是一回事了)

上一篇下一篇

猜你喜欢

热点阅读