logistic回归算法实现贵阳市湖泊水质自动分类

2019-06-12  本文已影响0人  qiufeng1ye

关键字:机器学习、数据分析、水质分类。


需求背景

《贵阳市湖泊监测数据》来源于贵阳市政府数据开放平台,在下载的2017年湖泊监测数据中,按照《地表水环境质量标准》(GB 3838-2002)对每期湖泊监测数据分为了五类水质,而下载的2016年湖泊监测数据并未进行分类。下面我们将基于2017年的监测数据和分类成果,根据logistic回归算法建立数据模型,对2016年的监测数据自动进行分类。

算法简介

logistic回归算法是统计学习中的经典分类算法,属于对数线性模型。logistic回归的主要思想是:根据现有公式对分类边界线建立回归公式,以此进行分类。logistic回归的假设函数是广义线性函数,损失函数可选用L1范数正则化或L2范数正则化,优化方法可选用梯度下降法或拟牛顿法计算数值解,或者用最小二乘法计算解析解。

数据预处理

2017年贵阳市湖泊水质监测数据,包含2个湖泊11个断面,共12期监测数据以及水质分类,有效特征32列,合计132行,前100行作为训练集,其余的作为测试集。

import numpy as np

data = np.loadtxt('./trainset.csv',dtype=float,delimiter=',',skiprows=1)
#划分数据集
train_X = data[:100,2:-1]
train_y = data[:100,-1]
test_X = data[100:,2:-1]
test_y = data[100:,-1]

2016年贵阳市湖泊水质监测数据,包含1个湖泊6个断面,共11期监测数据,无水质分类,有效特征32列,合计66行。

predixdata = np.loadtxt('./classset.csv',dtype=float,delimiter=',',skiprows=1)
predix_X = predixdata[:,2:-1]

对没有监测数据的记录用该列的平均值手动进行了填充,修正了非数值型的数据。也可以借助sklearn.preprocessing中Imputer工具处理。

from sklearn.preprocessing import Imputer

#缺失值插补
imp = Imputer(missing_values='--', strategy='mean', axis=0)
imp.fit(train_X)

由于特征列过多,在超过27列后工具报错。在测试前几列的时候,自动划分的效果不是很好,所以暂未处理该项。

from sklearn.decomposition import PCA

#主成分分析
pca=PCA(n_components='mle',svd_solver='full')
pca.fit(train_X)
print(pca.explained_variance_ratio_)
print(pca.n_components_)

由于数据存在噪声值,为避免中心化的影响选用z-score处理。公式为z=(x-μ)/σ。其中x为数值,μ为平均数,σ为标准差。

from sklearn.preprocessing import StandardScaler

#标准化
scaler = StandardScaler()
std_train_X = scaler.fit_transform(train_X)
std_test_X = scaler.transform(test_X)

模型生成

直接调用sklearn.linear_model的LogisticRegression,multi_class选用multinomial(多分类,不选的话为二分类),solver选用lbfgs(拟牛顿法的一种)。

from sklearn.preprocessing import StandardScaler

#选择模型
lor = LogisticRegression(random_state=0,multi_class='multinomial',solver='lbfgs') 
#训练模型
lor.fit(std_train_X,train_y)
#自动分类
predict_test_y = lor.predict(predix_X)

模型评价

需要人工将预测数据集的水质分类,再用真值和预测值对比分析。这里是用测试集评价,评价分数如下:

lor.score(std_test_X,test_y)
评价结果
上一篇下一篇

猜你喜欢

热点阅读