Support Vector Machines|python
2018-12-20 本文已影响1人
何同尘
什么是SVM?
支持向量机是一个监督学习算法,被用来分类和做回归。当然,它更多的用来处理分类问题。
在这个算法中,我们把每一个数据作为一个点画在n维空间里(维度等于特征数),每一个特征值在该维度作为一个坐标值。
怎样进行数据分类?
我们通过在两类数据中寻找一个超平面来进行分类。换句话说,算法需要输出一个最优超平面来对新实例进行分类。
什么是最优超平面?
对于SVM,它是最大化两个标签边距的那个。换句话说:超平面与每个标记的最近元素的距离最大。
非线性数据
要是对于数据,我们并不能找到一个线性的边界呢?我们需要添加一个新的维度,创建一个新的Z,可以使用来计算z。look this!
可调参数
核函数:在线性SVM中学习超平面是通过使用一些线性代数转换问题来完成的。这是内核扮演角色的地方,利用核函数来转换数据,有指数,对数核。
gamma:伽马参数定义单个训练集的影响达到的程度。对于低伽玛,在分离线的计算中考虑远离可能的分离线的点。高伽马意味着在计算中考虑接近可能线的点。
正规化:对于此参数的较大值,如果该超平面更好地将所有训练点分类正确,则优化将选择较小边距的超平面。相反,它的非常小的值将导致优化器寻找更大边距的分离超平面,即使该超平面错误分类更多的点。
边距:分离面最近的点距离。
实施
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].value
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)
from sklearn.svm import SVC
classifier = SVC(kernel = 'linear', random_state = 0)
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()
训练集结果
测试集结果