机器学习-决策树

2020-04-11  本文已影响0人  cHarden13

一.首先定义决策树中的三个术语:

1.树最顶层的部分称为根结点(Root Node)或直接称为根(The root):

The root
2.根节点以下最底层之间的部分称为内部节点(Internal Nodes)或节点(Nodes):
nodes
3.终点(也就是没有下一层的节点)被称为叶子节点(Leaf Nodes)或叶子(Leaves):
leaves
总结:1只有箭头指出;2有箭头指出和指入;3只有箭头指入。

二.模拟数据框

模拟一个响应变量为是否患心脏病的数据框:


数据框

三.构建决策树

分别将自变量胸痛、 良好血液循环和动脉阻塞状态放入随机树,有很多种放法,这个过程称为bootstrap(重抽样),每一种放法都可以得到一个结果:


结果

四.比较基尼不纯度(Gini impurity)

比较不同放法的Gini impurity scores,当Gini impurity scores最小时,就得到了最优的放法,即最优的决策树。

上一篇下一篇

猜你喜欢

热点阅读