决策树模型

2020-02-12 本文已影响0人 LoveToday2020

1.简介

a.最经典的机器学习模型之一

b.预测结果容易理解，易于解释

c.预测速度快

d.可处理类别和连续数据

2.算法原理

决策树是类似于树的结构，分支节点表示对一个特征进行测试，根据测试结果进行分类，树叶代表一个类别。

决策树模型

先对哪些特征进行分类

信息的量化：信息熵，基尼不纯度

什么样的特征带来的最多的信息变化幅度，我们就选择哪个特征来分类

如果特征为连续值，需要对数据进行离散处理

决策树的创建过程

a.遍历所有未划分的特征

b.选择信息增益大的特征划分数据

c.递归处理所有子集

递归处理的结束条件

a.所有特征都用完了

b.划分后的信息增益足够小

决策树的解决过拟合的方法

a.前剪枝：设定一个阈值，信息熵减小的数量小于这个值，停止创建分支

b.后剪枝：决策树创建完成之后，对节点检查其信息熵的增益

c.控制决策树的最大深度

决策树算法在scikit-learn中的算法参数

scikit-learn 中使用sklearn.DecisionTreeClassifier来实现决策树分类算法

a.criterion:特征选择方法

b.max_depth：决策树的最大深度

c.min_samples_split: 创建分支的数据集最小值

d.min_samples_leaf:创建分支后的节点样本数量最小值

e.min_impurity_split:信息增益阈值

以上参数意在解决过拟合问题

德国信用卡实例

德国信用卡欺诈数据集

x = data[data.columns[:-1]]

y = data[data.columns[-1]]

处理数据

下面进行优化

数据集地址链接:https://pan.baidu.com/s/1DkUesUvNHWY7VDOjQWPUQQ 密码:ynkb