分类问题建模

2019-04-10  本文已影响0人  iriscong

本文以python内置数据集iris为例,对分类问题中常用的算法进行总结。

一、导入文件

import pandas as pd
# from sklearn.cross_validation import train_test_split,cross_val_score # sklearn 版本0.17使用
from sklearn.model_selection import train_test_split,cross_val_score # sklearn 版本0.20.2使用
from sklearn import datasets

确定自变量和因变量:

rawfile = datasets.load_iris()
rawfile.feature_names # 获取自变量名称
rawfile.data # 获取自变量取值
rawfile.target # 获取因变量取值,0=setosa,1=versicolor,2=virginica
file = pd.DataFrame(data=rawfile.data, columns=rawfile.feature_names)
x = file
y = rawfile.target
file.head()

数据展示:

    sepal length (cm)   sepal width (cm)    petal length (cm)   petal width (cm)
0   5.1     3.5     1.4     0.2
1   4.9     3.0     1.4     0.2
2   4.7     3.2     1.3     0.2
3   4.6     3.1     1.5     0.2
4   5.0     3.6     1.4     0.2

二、建模

(一)逻辑回归

  1. 原理简述:
    创建逻辑函数,如果有了一个或多个自变量,输出的y值在[0,1]之间,表示概率。如果f(x)的值在0.5以上则为1,在0.5以下,则为0。仅适用于二元分类。
from sklearn.linear_model.logistic import LogisticRegression
model = LogisticRegression()
model.fit(x_train, y_train)

(二)knn近邻

原理简述:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。由此也说明了KNN算法的结果很大程度取决于K的选择。


knn近邻原理图示.png
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
model.fit(x_train, y_train)

三、评估

(一)准确率accuracy

(TP+TN)/(TP+TN+FP+FN)预测对的/所有。
局限性:
1、无法区分假阴和假阳
2、在总体比例一边倒的情况下,准确率并不有效。比如信用卡中的虚假交易很少,但是大部分正常交易都能预测为正常交易,很高的准确率并不能说明虚假交易预测很好。这时需要结合看精确率和召回率,尤其要重点关注不同y标签的精确率和召回率,具体看是预测哪个标签时经常出错:比如体检更关心假阳而非假音。但是准确率无法看出来。

# 方法一:
print(model.score(x_test, y_test))  # 在对模型训练后,输入测试集的x,以及正确的y
# 方法二:
from sklearn import metrics
print('accuracy_score:', metrics.accuracy_score(y_test, y_test_model))  # 输入正确的y & 模型训练出来的y

(二)精确率precision

TP/(TP+FP) 表示测试集中预测为正的样本中,有多少真的是正。猜测将标签中为1的值返回。

print('precision_score:', metrics.precision_score(y_test, y_test_model))

(三)召回率recall

TP/(TP+FN) 表示测试集中真正为正的样本中,有多少被正确预测了。猜测将标签中为1的值返回。

print('recall_score:', metrics.recall_score(y_test, y_test_model))

(四)f1值

综合评价指标(F1 measure)是精确率和召回率的调和均值(harmonic mean),或加权平均值,也称为F-measure或fF-score。

print('f1:', metrics.f1_score(y_test, y_test_model))

评估报告

精确率+召回率+f1值+标签训练结果出现次数

print(classification_report(y_test, y_test_model))  # 把生存规定为正类,和把没有生存规定为正类,计算出来的精确率和召回率是不一样的。但是准确率的计算都相同。
上一篇下一篇

猜你喜欢

热点阅读