分类问题建模

2019-04-10 本文已影响0人 iriscong

本文以python内置数据集iris为例，对分类问题中常用的算法进行总结。

一、导入文件

import pandas as pd
# from sklearn.cross_validation import train_test_split,cross_val_score # sklearn 版本0.17使用
from sklearn.model_selection import train_test_split,cross_val_score # sklearn 版本0.20.2使用
from sklearn import datasets

确定自变量和因变量：

rawfile = datasets.load_iris()
rawfile.feature_names # 获取自变量名称
rawfile.data # 获取自变量取值
rawfile.target # 获取因变量取值，0=setosa，1=versicolor，2=virginica
file = pd.DataFrame(data=rawfile.data, columns=rawfile.feature_names)
x = file
y = rawfile.target
file.head()

数据展示：

    sepal length (cm)   sepal width (cm)    petal length (cm)   petal width (cm)
0   5.1     3.5     1.4     0.2
1   4.9     3.0     1.4     0.2
2   4.7     3.2     1.3     0.2
3   4.6     3.1     1.5     0.2
4   5.0     3.6     1.4     0.2

二、建模

（一）逻辑回归

原理简述：
创建逻辑函数，如果有了一个或多个自变量，输出的y值在[0,1]之间，表示概率。如果f(x)的值在0.5以上则为1,在0.5以下，则为0。仅适用于二元分类。

from sklearn.linear_model.logistic import LogisticRegression
model = LogisticRegression()
model.fit(x_train, y_train)

（二）knn近邻

原理简述：
1）计算测试数据与各个训练数据之间的距离；
2）按照距离的递增关系进行排序；
3）选取距离最小的K个点；
4）确定前K个点所在类别的出现频率；
5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。由此也说明了KNN算法的结果很大程度取决于K的选择。

knn近邻原理图示.png

from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
model.fit(x_train, y_train)

三、评估

（一）准确率accuracy

(TP+TN)/(TP+TN+FP+FN)预测对的/所有。
局限性：
1、无法区分假阴和假阳
2、在总体比例一边倒的情况下，准确率并不有效。比如信用卡中的虚假交易很少，但是大部分正常交易都能预测为正常交易，很高的准确率并不能说明虚假交易预测很好。这时需要结合看精确率和召回率，尤其要重点关注不同y标签的精确率和召回率，具体看是预测哪个标签时经常出错：比如体检更关心假阳而非假音。但是准确率无法看出来。

# 方法一：
print(model.score(x_test, y_test))  # 在对模型训练后，输入测试集的x，以及正确的y
# 方法二：
from sklearn import metrics
print('accuracy_score：', metrics.accuracy_score(y_test, y_test_model))  # 输入正确的y & 模型训练出来的y

（二）精确率precision

TP/(TP+FP) 表示测试集中预测为正的样本中，有多少真的是正。猜测将标签中为1的值返回。

print('precision_score：', metrics.precision_score(y_test, y_test_model))

（三）召回率recall

TP/(TP+FN) 表示测试集中真正为正的样本中，有多少被正确预测了。猜测将标签中为1的值返回。

print('recall_score：', metrics.recall_score(y_test, y_test_model))

（四）f1值

综合评价指标（F1 measure）是精确率和召回率的调和均值（harmonic mean），或加权平均值，也称为F-measure或fF-score。

print('f1:', metrics.f1_score(y_test, y_test_model))

评估报告

精确率+召回率+f1值+标签训练结果出现次数

print(classification_report(y_test, y_test_model))  # 把生存规定为正类，和把没有生存规定为正类，计算出来的精确率和召回率是不一样的。但是准确率的计算都相同。