机器学习-决策树与基于ID3算法的python决策树实现

2018-12-15 本文已影响0人 Meanlay

决策树顾名思义，就相当于我们平常所画的那种逻辑树形图，帮助我们一步步判断。举个例子：

我们已经知道6位女生对经济和长相和最终结果（约会还是回家）的态度，那么现在来了一个男生他的条件是经济rich，长相ugly。

我们可以看到数据集（1，2行）两位女生的态度都不相同，一位拜金女表示愿意约会，另一位外貌协会表示不约。那么这种情况怎么办呢？我们可以看第三行，有一位女生在经济rich的情况下选择了约会，那么也就是说虽然前两位女生引起了冲突，但第三位女生虽然没有完全对rich和ugly的态度表态，但她对rich，cool的男生表示了愿意约会，也就是说她对rich的男生表示愿意约会的可能性也是比较大的，相当于给了rich，ugly这个男生信心。但第五位女士又对ugly表示要回家，那到底这个男生能不能约到女生呢？

如何用数学度量这种情况呢？对于一个普适的情况而言，女生是先考虑经济，还是长相呢？决策树帮我们处理了这一类问题

决策树划分算法有非常多，这里我们拿ID3算法举例。

ID3算法主要从信息增益来考量：

信息增益公式如下，S代表没划分，A表示特征，等式右边第一个项表示没划分前的信息熵，第二个代表根据属性A划分后的信息熵