机器学习第5天:逻辑回归
联系我:ke.zb@qq.com
我的技术博客:明天依旧可好-CSDN
-----代码传送门-----
-----数据传送门-----
一、环境
- Python3.6.5
- 编译器:jupyter notebook
二、具体实现步骤
第1步:数据预处理
导入库
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
导入数据
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[ : , [2,3]].values
Y = dataset.iloc[ : ,4].values
将数据集分成训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=0)
第2步:逻辑回归模型
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression()
classifier.fit(X_train, Y_train)
第3步:预测结果
Y_pred = classifier.predict(X_test)
第4步:评估预测结果
可视化
from matplotlib.colors import ListedColormap
#1.训练集可视化
X_set,y_set=X_train,Y_train
x = np.arange(start=X_set[:,0].min()-1, stop=X_set[:, 0].max()+1, step=0.01)
y = np.arange(start=X_set[:,1].min()-1, stop=X_set[:,1].max()+1, step=0.01)
#把x,y绑定为网格的形式
X1,X2=np. meshgrid(x,y)
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(),X1.max())
plt.ylim(X2.min(),X2.max())
for i,j in enumerate(np.unique(y_set)):
plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],
c = ListedColormap(('red', 'green'))(i), label=j)
plt. title(' LOGISTIC(Training set)')
plt. xlabel(' Age')
plt. ylabel(' Estimated Salary')
plt. legend()
plt. show()
#2.测试集可视化
X_set,y_set=X_test,Y_test
x = np.arange(start=X_set[:,0].min()-1, stop=X_set[:, 0].max()+1, step=0.01)
y = np.arange(start=X_set[:,1].min()-1, stop=X_set[:,1].max()+1, step=0.01)
#把x,y绑定为网格的形式
X1,X2=np. meshgrid(x,y)
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(),X1.max())
plt.ylim(X2.min(),X2.max())
for i,j in enumerate(np.unique(y_set)):
plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],
c = ListedColormap(('red', 'green'))(i), label=j)
plt. title(' LOGISTIC(Test set)')
plt. xlabel(' Age')
plt. ylabel(' Estimated Salary')
plt. legend()
plt. show()
三、可视化结果展示
明天依旧可好四、逻辑回归是什么
简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。
逻辑回归是为了解决分类问题,根据一些已知的训练集训练好模型,再对新的数据进行预测属于哪个类。
逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从高斯分布。(这部分暂时了解了即可)
这篇博客简单介绍一下逻辑回归是个什么东西,下一篇博客将展开对逻辑回归的具体介绍。
五、利用matplotlib实现可视化
1. 函数讲解
(1) np.arange(): arange([start,] stop[, step,], dtype=None)根据start与stop指定的范围以及step设定的步长,生成一个 ndarray可迭代对象。
(2) .ravel(): 将多维数组降为一维数组。
(3) .reshape(): A.reshape(X1.shape)将A的类型重塑为X1的shape。
(4) T: 实现数组转置和轴对换。例如:
arr = np.arange(15).reshape(3,5)
"""
输出:
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14]])
"""
arr.T
"""
输出:
array([[ 0, 5, 10],
[ 1, 6, 11],
[ 2, 7, 12],
[ 3, 8, 13],
[ 4, 9, 14]])
"""
(5).meshgrid(): meshgrid函数用两个坐标轴上的点在平面上画网格。
(6).contourf(): 用来画红绿两种结果的分界线, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),这个是利用逻辑回归模型预测分界线。
(7)xlim: plt.xlim设置x坐标轴范围。
(8)ylim: plt.ylim设置y坐标轴范围。
(9)unque(): 是一个去重函数。
(10)enumerate: 用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。
今天先了解一下利用matplotlib实现可视化,明天将对matplotlib进行详细介绍。
2. 关于X_set[y_set==j,0]
for i,j in enumerate(np.unique(y_set)):
plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],
c = ListedColormap(('red', 'green'))(i), label=j)
关于这个点小编也是半懂,简单谈一下我的理解。y_set == j的结果是一个布尔值这个是肯定的,当y_set == j的结果为False时,plt.scatter语句不执行;当y_set == j的结果为True时,plt.scatter语句执行,X_set[y_set==j,0]的作用效果相当于X_set[ : ,0]。
附上老外的看法:What does X_set[y_set == j, 0] mean?
有不同见解的童鞋可以在下方留言,我们一起交流。
我的CSDN技术专栏:【机器学习100天】、【K童鞋的爬虫笔记】