机器学习-决策树
2020-04-11 本文已影响0人
cHarden13
一.首先定义决策树中的三个术语:
1.树最顶层的部分称为根结点(Root Node)或直接称为根(The root):
2.根节点以下最底层之间的部分称为内部节点(Internal Nodes)或节点(Nodes):
nodes
3.终点(也就是没有下一层的节点)被称为叶子节点(Leaf Nodes)或叶子(Leaves):
leaves
总结:1只有箭头指出;2有箭头指出和指入;3只有箭头指入。
二.模拟数据框
模拟一个响应变量为是否患心脏病的数据框:
数据框
三.构建决策树
分别将自变量胸痛、 良好血液循环和动脉阻塞状态放入随机树,有很多种放法,这个过程称为bootstrap(重抽样),每一种放法都可以得到一个结果:
结果
四.比较基尼不纯度(Gini impurity)
比较不同放法的Gini impurity scores,当Gini impurity scores最小时,就得到了最优的放法,即最优的决策树。