04 决策树 - 直观理解

2018-10-31 本文已影响48人白尔摩斯

在决策树的第一章中《01 决策树 - 数学理论概述 - 熵》开头就给出了以下这个案例：根据一个人是否有房产、婚姻情况、年收入情况判断一个人是否有能力偿还债务。

结合《02 决策树 - 初识与构建》
和《03 决策树 - 量化纯度、信息增益度、停止条件、评估》
的知识，本章我们将分析一下：应该选哪个属性，作为系统的第一个分割属性？

1、计算样本结果Y-是否能偿还债务的不稳定程度(不纯度)(信息熵)
回顾公式：

H(X)是随机变量X的信息熵

图中可以得知：可以偿还的概率为0.3，不能偿还的概率是0.7。

整个系统的不稳定程度

2、根据结果Y，划分特征x1带来的信息熵
"x1=是否拥有房产" 这个特征只有两种划分：是、否。
p(x1=是)=0.4 p(x1=否)=0.6

当p(x1=是)时，"y=是" 的取值有4个，"y=否" 的取值有0个，所以"y=是" 的概率为1，"y=否" 的概率为0。

当p(x1=否)时，"y=是" 的取值有3个，"y=否" 的取值也有3个，所以概率都是0.5。

所以根据结果Y，对特征x1的划分带来的信息熵计算如下：

3、量化x1的纯度

决策树的构建是基于样本概率和纯度来进行的，判断数据集是否“纯”可以通过三个公式进行判断：Gini系数、熵(Entropy)、错误率。

三个公式的值越大，表示数据越不纯。值越小，表示数据越纯。
回顾：03 决策树 - 量化纯度、信息增益度、停止条件、评估

重点回顾：
1、Gain为A在特征对训练数据集D的信息增益，它为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。
2、不能将所有叶子节点的信息熵单纯的求和，还得乘上一个权重值，权重值=当前叶子节点的样本个数/总的样本个数。

根据以上知识点，得出选择x1特征-是否拥有房产做分类时带来的Gain值。

4、重复1~3的步骤计算其他的特征的信息增益Gain值

最后我们发现收入的信息增益Gain值最大，所以选择该属性作为第一个分类的条件。根据是否拥有房产作为第二个分类的条件。

决策树

PS：说下年收入属性的划分97.5是怎么得到的
将X、Y的数据进行转换，对年收入的连续值从小到大做排序，然后找两两数据之间的分割点，（比如60~75之间找中值67.5）
以所有中间值作为分裂点，分别计算这些分裂点的信息熵，再计算对应的信息增益Gain。取最大的Gain值对应的分裂点即可。

年收入