决策树---ID3

2019-03-05 本文已影响0人 Tulip0322

信息增益：

熵：信息的度量方式，如果待分类的事物可能划分在多个分类（ $x_{1}，x_{2}，......$ ）中，则符号 $x_{i}$ 的信息量定义为： $I(x_{i})=\log_2 p_{x_{i} }$ ； $p_{x_{i} }$ 是选择该分类的概率。

香农熵：所有可能类别的信息期望值； $H=-\sum_{i=1}^n p_{x_{i} } \log_2 p_{x_{i} }$ ；

H越大，变量的不确定性就越大。等概率的情况下，n越大，H越大；n固定时，等概率的情况下，H越大。

经验熵：当熵中的概率由数据估计（特别是最大似然估计）得到时，所对应的熵称为经验熵；即：

$H(D)=-\sum_{k=1}^k \frac{\vert C_{k}\vert }{\vert D\vert } \log_2 \frac{\vert C_{k}\vert }{\vert D\vert }$

注： $\vert D \vert$ 表示样本容量（样本个数），有k个类， $\vert C_{k} \vert$ 为属于类 $C_{k}$ 的样本个数。

条件熵：表示在已知随机变量X的条件下随机变量Y的不确定性。

$H(Y\vert X)=\sum_{i=1}^n p_{i}H(Y\vert X=x_{i} )$

其中， $p_{i} =P(X=x_{i}),i=1,2,3,...,n$

信息增益： $g(D,A)=H(D)-H(D\vert A)$

数据集

数据集的经验熵为： $H(D)=-\frac{9}{15}*\log_2 \frac{9}{15}-\frac{6}{15}*\log_2 \frac{6}{15} \approx 0.971$

年龄的信息增益： $g(D,A_{1} )=H(D)-[\frac{5}{15}H(D_{1})+\frac{5}{15}H(D_{2})+\frac{5}{15}H(D_{3})]=0.971-[ \frac{5}{15} (-\frac{2}{5}\log_2 \frac{2}{5}-\frac{3}{5}\log_2 \frac{3}{5})+ \frac{5}{15} (-\frac{3}{5}\log_2 \frac{3}{5}-\frac{2}{5}\log_2 \frac{2}{5})+\frac{5}{15} (-\frac{4}{5}\log_2 \frac{4}{5}-\frac{1}{5}\log_2 \frac{1}{5})]=0.971-0.888=0.083$

有工作的信息增益：

$g(D,A_{2} )=H(D)-[\frac{5}{15}H(D_{1})+\frac{10}{15}H(D_{2})]=0.971-[ \frac{5}{15} *0+ \frac{10}{15} (-\frac{4}{10}\log_2 \frac{4}{10}-\frac{6}{10}\log_2 \frac{6}{10})]=0.971-0.647=0.324$

有自己房子的信息增益：

$g(D,A_{3} )=H(D)-[\frac{6}{15}H(D_{1})+\frac{9}{15}H(D_{2})]=0.971-[ \frac{6}{15} *0+ \frac{9}{15} (-\frac{3}{9}\log_2 \frac{3}{9}-\frac{6}{9}\log_2 \frac{6}{9})]=0.971-0.551=0.420$

信贷的信息增益：

$g(D,A_{4} )=H(D)-[\frac{5}{15}H(D_{1})+\frac{6}{15}H(D_{2})+\frac{4}{15}H(D_{3})]=0.971-[ \frac{5}{15} (-\frac{1}{5}\log_2 \frac{1}{5}-\frac{4}{5}\log_2 \frac{4}{5})+ \frac{6}{15} (-\frac{4}{6}\log_2 \frac{4}{6}-\frac{2}{6}\log_2 \frac{2}{6})+\frac{4}{15}*0 ]=0.971-0.608=0.363$

ID3算法：

结点选择原则：信息增益最大的特征

流程：从根结点开始，对所有结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点，再对子节点递归的调用以上方法；

停止条件：第一个是所有的类别标签完全相同，则直接返回该类标签；第二个是用完了所有特征，若仍不能将数据划分仅包含唯一类别的分组，则决策树构建失败，说明数据维度不够。

以上数据集中，有自己房子的信息增益最大，所以作为根节点；

没有自己房子的样本集：

此时： $H(D)=-\frac{6}{9}\log_2 \frac{6}{9}-\frac{3}{9}\log_2 \frac{3}{9} =0.918$

年龄的信息增益： $H(D,A_{1})=H(D)-[\frac{4}{9}H(D_{1})+\frac{3}{9}H(D_{2})+\frac{2}{9}H(D_{3})] =0.918-[\frac{4}{9}(-\frac{3}{4}\log_2 \frac{3}{4} -\frac{1}{4}\log_2 \frac{1}{4})+ \frac{3}{9}(-\frac{1}{3}\log_2 \frac{1}{3} -\frac{2}{3}\log_2 \frac{2}{3})+\frac{2}{9}*0] =0.918-0.667=0.251$

有工作的信息增益：

$H(D,A_{2})=H(D)-[\frac{6}{9}H(D_{1})+\frac{3}{9}H(D_{2})] =0.918-[\frac{6}{9}*0+\frac{3}{9}*0]=0.918$

信贷情况的信息增益：

$H(D,A_{3})=H(D)-[\frac{1}{9}H(D_{1})+\frac{4}{9}H(D_{2})+\frac{4}{9}H(D_{3})] =0.918-[\frac{1}{9}*0+\frac{4}{9}*(-\frac{2}{4}\log_2 \frac{2}{4}-\frac{2}{4}\log_2 \frac{2}{4}+\frac{4}{9}*0 ]=0.918 -0.444=0.474$

有工作的信息增益值最大，所以上图“？？？”处的节点应该是有工作，即：

由于，有自己的房子而且有工作下的所有子样本标签都一致，有自己的房子没有工作的所有子样本标签都一致，满足递归停止的第一个条件，所以决策树构建完成。

决策树---ID3

信息增益：

ID3算法：

猜你喜欢

热点阅读