【数据科学家学习小组】之机器学习第一期第七周作业

2019-12-22  本文已影响0人  行走读书生活

决策树分析是一种什么算法?

决策树算法利用了信息熵和决策树思维:

信息熵与最优划分

信息熵就是信息的期望值,所以我们可知,信息熵越越小,信息的纯度越高,也就是信息越少,在分类领域来讲就是里面包含的类别越少,所以我们可以得出,与初始信息熵的差越大分类效果越好。

基尼系数

基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小;

  1. G 越大,数据的不确定性越高;
  2. G 越小,数据的不确定性越低;
  3. G = 0,数据集中的所有样本都是同一类别;

CART

分类与回归树(classification and regression tree, CART)既可以用于回归也可以用于分类。使用二元切分法来处理连续型数值。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是输入给定的条件下输出的条件概率分布。

使用基尼系数作为数据纯度的量化指标构建决策树。CART算法使用Gini增长率作为分割属性选择的标准,选择Gini增长率最大的作为当前数据集的分割属性。
(以上内容部分摘自:https://blog.csdn.net/choven_meng/article/details/82878018

上一篇下一篇

猜你喜欢

热点阅读