决策树---ID3

2019-03-05  本文已影响0人  Tulip0322

信息增益:

熵:信息的度量方式,如果待分类的事物可能划分在多个分类(x_{1},x_{2},......  )中,则符号x_{i} 的信息量定义为:I(x_{i})=\log_2 p_{x_{i} }p_{x_{i} } 是选择该分类的概率。

香农熵:所有可能类别的信息期望值;H=-\sum_{i=1}^n p_{x_{i} }  \log_2 p_{x_{i} }

H越大,变量的不确定性就越大。等概率的情况下,n越大,H越大;n固定时,等概率的情况下,H越大。

经验熵:当熵中的概率由数据估计(特别是最大似然估计)得到时,所对应的熵称为经验熵;即:

              H(D)=-\sum_{k=1}^k \frac{\vert C_{k}\vert  }{\vert D\vert } \log_2 \frac{\vert C_{k}\vert  }{\vert D\vert }

                注:\vert D \vert 表示样本容量(样本个数),有k个类,\vert C_{k}  \vert 为属于类C_{k} 的样本个数。

条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性。

               H(Y\vert X)=\sum_{i=1}^n p_{i}H(Y\vert X=x_{i}   )

               其中,p_{i} =P(X=x_{i}),i=1,2,3,...,n

信息增益:g(D,A)=H(D)-H(D\vert A)

数据集

数据集的经验熵为:H(D)=-\frac{9}{15}*\log_2 \frac{9}{15}-\frac{6}{15}*\log_2 \frac{6}{15}  \approx 0.971

年龄的信息增益:g(D,A_{1} )=H(D)-[\frac{5}{15}H(D_{1})+\frac{5}{15}H(D_{2})+\frac{5}{15}H(D_{3})]=0.971-[ \frac{5}{15} (-\frac{2}{5}\log_2 \frac{2}{5}-\frac{3}{5}\log_2 \frac{3}{5})+  \frac{5}{15} (-\frac{3}{5}\log_2 \frac{3}{5}-\frac{2}{5}\log_2 \frac{2}{5})+\frac{5}{15} (-\frac{4}{5}\log_2 \frac{4}{5}-\frac{1}{5}\log_2 \frac{1}{5})]=0.971-0.888=0.083

有工作的信息增益:

g(D,A_{2} )=H(D)-[\frac{5}{15}H(D_{1})+\frac{10}{15}H(D_{2})]=0.971-[ \frac{5}{15} *0+  \frac{10}{15} (-\frac{4}{10}\log_2 \frac{4}{10}-\frac{6}{10}\log_2 \frac{6}{10})]=0.971-0.647=0.324

有自己房子的信息增益:

g(D,A_{3} )=H(D)-[\frac{6}{15}H(D_{1})+\frac{9}{15}H(D_{2})]=0.971-[ \frac{6}{15} *0+  \frac{9}{15} (-\frac{3}{9}\log_2 \frac{3}{9}-\frac{6}{9}\log_2 \frac{6}{9})]=0.971-0.551=0.420

信贷的信息增益:

g(D,A_{4} )=H(D)-[\frac{5}{15}H(D_{1})+\frac{6}{15}H(D_{2})+\frac{4}{15}H(D_{3})]=0.971-[ \frac{5}{15} (-\frac{1}{5}\log_2 \frac{1}{5}-\frac{4}{5}\log_2 \frac{4}{5})+  \frac{6}{15} (-\frac{4}{6}\log_2 \frac{4}{6}-\frac{2}{6}\log_2 \frac{2}{6})+\frac{4}{15}*0 ]=0.971-0.608=0.363

ID3算法:

结点选择原则:信息增益最大的特征

流程:从根结点开始,对所有结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点,再对子节点递归的调用以上方法;

停止条件:第一个是所有的类别标签完全相同,则直接返回该类标签;第二个是用完了所有特征,若仍不能将数据划分仅包含唯一类别的分组,则决策树构建失败,说明数据维度不够。

以上数据集中,有自己房子的信息增益最大,所以作为根节点;

没有自己房子的样本集:

此时:H(D)=-\frac{6}{9}\log_2 \frac{6}{9}-\frac{3}{9}\log_2 \frac{3}{9}  =0.918

年龄的信息增益:H(D,A_{1})=H(D)-[\frac{4}{9}H(D_{1})+\frac{3}{9}H(D_{2})+\frac{2}{9}H(D_{3})]  =0.918-[\frac{4}{9}(-\frac{3}{4}\log_2 \frac{3}{4}   -\frac{1}{4}\log_2 \frac{1}{4})+  \frac{3}{9}(-\frac{1}{3}\log_2 \frac{1}{3}   -\frac{2}{3}\log_2 \frac{2}{3})+\frac{2}{9}*0] =0.918-0.667=0.251

有工作的信息增益:

H(D,A_{2})=H(D)-[\frac{6}{9}H(D_{1})+\frac{3}{9}H(D_{2})]  =0.918-[\frac{6}{9}*0+\frac{3}{9}*0]=0.918

信贷情况的信息增益:

H(D,A_{3})=H(D)-[\frac{1}{9}H(D_{1})+\frac{4}{9}H(D_{2})+\frac{4}{9}H(D_{3})]  =0.918-[\frac{1}{9}*0+\frac{4}{9}*(-\frac{2}{4}\log_2 \frac{2}{4}-\frac{2}{4}\log_2 \frac{2}{4}+\frac{4}{9}*0    ]=0.918 -0.444=0.474

有工作的信息增益值最大,所以上图“???”处的节点应该是有工作,即:

由于,有自己的房子而且有工作下的所有子样本标签都一致,有自己的房子没有工作的所有子样本标签都一致,满足递归停止的第一个条件,所以决策树构建完成。

上一篇 下一篇

猜你喜欢

热点阅读