Support Vector Machines|python

2018-12-20 本文已影响1人何同尘

什么是SVM？

支持向量机是一个监督学习算法，被用来分类和做回归。当然，它更多的用来处理分类问题。
在这个算法中，我们把每一个数据作为一个点画在n维空间里（维度等于特征数），每一个特征值在该维度作为一个坐标值。

怎样进行数据分类？

我们通过在两类数据中寻找一个超平面来进行分类。换句话说，算法需要输出一个最优超平面来对新实例进行分类。

什么是最优超平面？

对于SVM，它是最大化两个标签边距的那个。换句话说：超平面与每个标记的最近元素的距离最大。

svm分类

非线性数据

要是对于数据，我们并不能找到一个线性的边界呢？我们需要添加一个新的维度，创建一个新的Z，可以使用 $z =x^2+y^2$ 来计算z。look this!

非线性

可调参数

核函数：在线性SVM中学习超平面是通过使用一些线性代数转换问题来完成的。这是内核扮演角色的地方，利用核函数来转换数据，有指数，对数核。
gamma:伽马参数定义单个训练集的影响达到的程度。对于低伽玛，在分离线的计算中考虑远离可能的分离线的点。高伽马意味着在计算中考虑接近可能线的点。
正规化：对于此参数的较大值，如果该超平面更好地将所有训练点分类正确，则优化将选择较小边距的超平面。相反，它的非常小的值将导致优化器寻找更大边距的分离超平面，即使该超平面错误分类更多的点。
边距：分离面最近的点距离。

实施

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].value

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)

from sklearn.svm import SVC
classifier = SVC(kernel = 'linear', random_state = 0)
classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

训练集结果

测试集结果