决策树
2018-05-21 本文已影响6人
闫_锋
决策树是一种树形结构的分类器,通过顺序询问分类点的属性决定分类点最终的类别。通常根据特征的信息增益或其他指标,构建一颗决策树。在分类时,只需要按照决策树中的结点依次进行判断,即可得到样本所属类别。
在sklearn库中,可以使用sklearn.tree.DecisionTreeClassifier创
建一个决策树用于分类,其主要参数有:
• criterion :用于选择属性的准则,可以传入“gini”代表基尼系数,或者“entropy”代表信息增益。
• max_features :表示在决策树结点进行分裂时,从多少个特征中选择最优特征。可以设定固定数目、百分比或其他标准。它的默认值是使用所有特征个数。
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
clf=DecisionTreeClassifier()
iris=load_iris()
cross_val_score(clf, iris.data, iris.target, cv=10)
clf.fit(X,y)
clf.predict(x)
• 决策树本质上是寻找一种对特征空间上的划分,旨在构建一个训练数据拟合的
好,并且复杂度小的决策树。
• 在实际使用中,需要根据数据情况,调整DecisionTreeClassifier类中传入的
参数,比如选择合适的criterion,设置随机变量等。