机器学习

06 决策树 - 案例一 - 鸢尾花数据分类、卡方检验

2018-11-01  本文已影响88人  白尔摩斯

一、数据说明

这次案例还是使用鸢尾花数据分类的数据。
数据路径: /datas/iris.data
数据格式:

鸢尾花数据示例

数据解释:

iris_feature_E = 'sepal length', 'sepal width', 'petal length', 'petal width'
iris_feature_C = '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'
iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'

二、开始讲代码

1、引入头文件

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import warnings
from sklearn import tree #决策树
from sklearn.tree import DecisionTreeClassifier #分类树
from sklearn.model_selection  import train_test_split#测试集和训练集
from sklearn.pipeline import Pipeline #管道
from sklearn.feature_selection import SelectKBest #特征选择
from sklearn.feature_selection import chi2 #卡方统计量

from sklearn.preprocessing import MinMaxScaler  #数据归一化
from sklearn.decomposition import PCA #主成分分析
from sklearn.model_selection import GridSearchCV #网格搜索交叉验证

feature_selection 是做特征选择的包
feature_selection 中的方法SelectKBest,帮助我们选择K个最优的特征
feature_selection 中的方法chi2-卡方检验,表示使用chi2的方法帮助我们在SelectKBest中选择最优的K个最优特征。

2、防中文乱码、去警告、读取数据

## 设置属性防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

warnings.filterwarnings('ignore', category=FutureWarning)

iris_feature_E = 'sepal length', 'sepal width', 'petal length', 'petal width'
iris_feature_C = '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'
iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'

#读取数据
path = './datas/iris.data'  
data = pd.read_csv(path, header=None)
x=data[list(range(4))]#获取X变量

y=pd.Categorical(data[4]).codes#把Y转换成分类型的0,1,2
print("总样本数目:%d;特征属性数目:%d" % x.shape)

data.head(5)

总样本数目:150;特征属性数目:4

x=data[list(range(4))]
取得样本前四列特殊数据 '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'
iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'
y=pd.Categorical(data[4]).codes#把Y转换成分类型的0,1,2
将目标的三种分类转换成0,1,2

PS: 在之前的例子中:04 分类算法 - Logistic回归 - 信贷审批案例,我们自己写过一个分类的算法对部分特征进行哑编码操作: parseRecord(record),其实pandas自己也集成了这个转换算法:pd.Categorical(data[4]).codes,可以把y直接转换成0,1,2。

以上是数据预处理的步骤,和之前的例子类似。


3、数据分割(训练数据和测试数据)

x_train1, x_test1, y_train1, y_test1 = train_test_split(x, y, 
  train_size=0.8, random_state=14)

x_train, x_test, y_train, y_test = x_train1, x_test1, y_train1, y_test1
print ("训练数据集样本数目:%d,
   测试数据集样本数目:%d" % (x_train.shape[0], x_test.shape[0]))

#astype:转换数组的数据类型。
y_train = y_train.astype(np.int)
y_test = y_test.astype(np.int)

训练数据集样本数目:120, 测试数据集样本数目:30

注意:这个demo中的案例在这一步还没有做KFold-K折交叉验证。当前步骤的主要内容是对数据进行划分。K折就要生成K个互斥的子集。KFold的工作就是帮助我们划分子集的,划分完后我们将子集扔进建模即可。02 分类算法 - Logistic案例中提及过K折交叉验证的内容。

4、数据标准化和数据归一化的区别

思考: 行数据和列数据,哪个服从正态分布?显然,列数据是特征,和样本一样都服从正态分布。所以数据标准化和归一化的对象是列。

数据标准化:
StandardScaler (基于特征矩阵的列,将属性值转换至服从正态分布)
标准化是依照特征矩阵的列处理数据,其通过求z-score: z-score=(x-μ)/σ的方法,将样本的特征值转换到同一量纲下。z-score是N(0,1)正态分布,即标准正态分布。
常用与基于正态分布的算法,比如回归。
PS:在04 回归算法 - 最小二乘线性回归案例中对ss = StandardScaler()数据标准化操作进行了深入分析。

数据归一化:
MinMaxScaler (区间缩放,基于最大最小值,将数据转换到0,1区间上的)
提升模型收敛速度,提升模型精度。
常见用于神经网络。
Normalizer (基于矩阵的行,将样本向量转换为单位向量)
其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准。
常见用于文本分类和聚类、logistic回归中也会使用,有效防止过拟合。

#数据归一化
ss = MinMaxScaler ()
#用标准化方法对数据进行处理并转换
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)
print ("原始数据各个特征属性的调整最小值:",ss.min_)
print ("原始数据各个特征属性的缩放数据值:",ss.scale_)

原始数据各个特征属性的调整最小值:
[-1.19444444 -0.83333333 -0.18965517 -0.04166667]
原始数据各个特征属性的缩放数据值:
[ 0.27777778 0.41666667 0.17241379 0.41666667]

5、特征选择:
特征选择:从已有的特征中选择出影响目标值最大的特征属性
特征选择是一个transform的过程
常用方法:
{ 分类:F统计量、卡方系数,互信息mutual_info_classif
{ 连续:皮尔逊相关系数 F统计量 互信息mutual_info_classif
这里介绍一种特征选择方法:K方检验 SelectKBest


补充知识:K方检验
https://baike.baidu.com/item/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C/2591853?fr=aladdin

ch2 = SelectKBest(chi2,k=3)这步操作本质是一个Transformer的步骤。Transformer的概念参考05 回归算法 - 多项式扩展、管道Pipeline
K方检验的本质是:判断两个特征之间的关联程度。

看下面两个样本:

1、男女性别和是否会化妆的关联性是很强的:

是否化妆 / 性别
化妆 20 80
不化妆 90 10

2、男女性别和是否出门带口罩的关联性不强:

是否带口罩 / 性别
55 45
不带 55 45

但大部分属性对结果的关联性我们很难用常识去判断,所以我们可以首先假设样本的特征和目标无关。

假设性别和是否会化妆无关。因此我们设男人中化妆的比例为55%,男人中不化妆的比例是45%
根据实际情况进行计算:(列联表)
(20-55)2/55 + (90-55)2/55 + (80-45)2/45 + (10-45)2/45
结果越大,说明性别和是否会化妆的关联程度越大,当数值较大时我们可以说拒绝原假设,即原假设错误,真实情况下性别和是否会化妆有很大的影响。(越大越拒绝)

如果结果越小,说明假设正确,我们称之为不拒绝原假设。

注意: K方统计用于离散的特征,对连续的特征无效。


#SelectKBest(卡方系数)
#在当前的案例中,使用SelectKBest这个方法
#从4个原始的特征属性,选择出来3个
ch2 = SelectKBest(chi2,k=3)
#K默认为10
#如果指定了,那么就会返回你所想要的特征的个数
#训练并转换
#chi2卡方检验对应的是离散特征和目标值之间的关系
#本质上不能处理连续特征和目标值的关系
x_train = ch2.fit_transform(x_train, y_train)
x_test = ch2.transform(x_test)#转换

select_name_index = ch2.get_support(indices=True)
print ("对类别判断影响最大的三个特征属性分布是:",
   ch2.get_support(indices=False))
print(select_name_index)

对类别判断影响最大的三个特征属性分布是:
[ True False True True]
[0 2 3]

这里False的属性就是K方检验分数最小的那个,如果只取3个特征,False对应的那个特征就会被丢弃。

6、模型的构建、训练、预测:

#模型的构建
#另外也可选gini 
model = DecisionTreeClassifier(criterion='entropy',random_state=0)
#模型训练
model.fit(x_train, y_train)
#模型预测
y_test_hat = model.predict(x_test) 

#模型结果的评估
y_test2 = y_test.reshape(-1)
result = (y_test2 == y_test_hat)
print ("准确率:%.2f%%" % (np.mean(result) * 100))
#实际可通过参数获取
print ("Score:", model.score(x_test, y_test))#准确率
print ("Classes:", model.classes_)

准确率:96.67%
Score: 0.966666666667
Classes: [0 1 2]

7、画图:

#画图
N = 100  #横纵各采样多少个值
x1_min = np.min((x_train.T[0].min(), x_test.T[0].min()))
x1_max = np.max((x_train.T[0].max(), x_test.T[0].max()))
x2_min = np.min((x_train.T[1].min(), x_test.T[1].min()))
x2_max = np.max((x_train.T[1].max(), x_test.T[1].max()))

t1 = np.linspace(x1_min, x1_max, N)
t2 = np.linspace(x2_min, x2_max, N)
x1, x2 = np.meshgrid(t1, t2)  # 生成网格采样点
x_show = np.dstack((x1.flat, x2.flat))[0] #测试点

y_show_hat = model.predict(x_show) #预测值

y_show_hat = y_show_hat.reshape(x1.shape)  #使之与输入的形状相同
print(y_show_hat.shape)
y_show_hat[0]
#画图
plt_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
plt_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])

plt.figure(facecolor='w')
plt.pcolormesh(x1, x2, y_show_hat, cmap=plt_light) #对网格点进行上色
plt.scatter(x_test.T[0], x_test.T[1], c=y_test.ravel(), edgecolors='k', s=150, zorder=10, marker='*', cmap=plt_dark)  # 测试数据
plt.scatter(x_train.T[0], x_train.T[1], c=y_train.ravel(), edgecolors='k', s=40,cmap=plt_dark )  # 全部数据
plt.xlabel(u'特征属性1', fontsize=15)
plt.ylabel(u'特征属性2', fontsize=15)
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.grid(True)
plt.title(u'鸢尾花数据的决策树分类', fontsize=18)
plt.show()
上一篇 下一篇

猜你喜欢

热点阅读