决策树的通俗理解2019-04-07

2019-04-07  本文已影响0人  loveevol

提示:按照下面整理出来的网址,全部学习一遍,就可以掌握决策树。至于发挥和深入理解,需要后续自己进一步学习。

补充的:
我发现英文的质量更好,可以参考这个网址。利用google镜像搜索 python decision tree example sklearn

好的网络参考

决策树(DTs)是一种用于分类和回归的非参数监督学习方法。参见下面网页。
决策树


具体实践中,到底选择哪个特征作为当前分裂特征,常用的有下面三种算法:
ID3:使用信息增益g(D,A)进行特征选择
C4.5:信息增益率 =g(D,A)/H(A)
CART:基尼系数
一个特征的信息增益(或信息增益率,或基尼系数)越大,表明特征对样本的熵的减少能力更强,这个特征使得数据由不确定性到确定性的能力越强。
作者:huahuazhu
来源:CSDN
原文:https://blog.csdn.net/huahuazhu/article/details/73167610
版权声明:本文为博主原创文章,转载请附上博文链接!


决策树利用scikit-learning


决策树的一些优势是:

决策树的缺点包括:

分类

决策树分类器(DecisionTreeClassifier)是一个能够在数据集上执行多类分类的类。
与其他分类器一样,决策树分类器以输入两个数组作为输入:数组X,稀疏或密集,


决策树python
信息增益(information gain),表示两个信息熵的差值。
首先计算未分类前的熵,总共有8位同学,男生3位,女生5位。
熵(总)=-3/8log2(3/8)-5/8log2(5/8)=0.9544
接着分别计算同学A和同学B分类后信息熵。
同学A首先按头发分类,分类后的结果为:长头发中有1男3女。短头发中有2男2女。
熵(同学A长发)=-1/4log2(1/4)-3/4log2(3/4)=0.8113
熵(同学A短发)=-2/4log2(2/4)-2/4log2(2/4)=1
熵(同学A)=4/80.8113+4/81=0.9057
信息增益(同学A)=熵(总)-熵(同学A)=0.9544-0.9057=0.0487
同理,按同学B的方法,首先按声音特征来分,分类后的结果为:声音粗中有3男3女。声音细中有0男2女。
熵(同学B声音粗)=-3/6log2(3/6)-3/6log2(3/6)=1
熵(同学B声音粗)=-2/2log2(2/2)=0
熵(同学B)=6/81+2/8*0=0.75
信息增益(同学B)=熵(总)-熵(同学B)=0.9544-0.75=0.2087

按同学B的方法,先按声音特征分类,信息增益更大,区分样本的能力更强,更具有代表性。
以上就是决策树ID3算法的核心思想。
作者:a_achengsong
来源:CSDN
原文:https://blog.csdn.net/csqazwsxedc/article/details/65697652
版权声明:本文为博主原创文章,转载请附上博文链接!


简单决策树的可视化



机器学习入门


sklearn实现决策树****

python决策树算法实现-以泰坦尼克号为例

上一篇 下一篇

猜你喜欢

热点阅读