4.1 K近邻算法

2019-06-28  本文已影响0人  逆风的妞妞

4.1 K近邻算法

  K近邻算法的本质其实是认为两个样本如果足够相似,就有更高的概率属于同一个类别。两个样本的相似性就是由在空间上两个样本的距离来决定的。</br>
  K近邻算法可以解决监督学习的分类问题,也可以解决回归问题。

import numpy as np
import matplotlib.pyplot as plt
# 模拟样本数据集
raw_data_x = [[3.423749247, 2.334567896],
              [3.110073483, 1.745697878],
              [1.347946498, 3.368464565],
              [3.582294042, 4.679565478],
              [2.280364646, 2.866699256],
              [7.423454548, 4.696522875],
              [5.745051465, 3.533989946],
              [9.172456464, 2.051111010],
              [7.792783481, 3.424088941],
              [7.939820184, 0.791637231]
            ]
raw_data_y = [0,0,0,0,0,1,1,1,1,1]
X_train = np.array(raw_data_x)
y_train = np.array(raw_data_y)
plt.scatter(X_train[y_train==0, 0], X_train[y_train==0, 1], color='g')
plt.scatter(X_train[y_train==1, 0], X_train[y_train==1, 1], color='r')
plt.show()
image
# 此时来了新的样本
x = np.array([8.093607318, 3.3657315144])
plt.scatter(X_train[y_train==0, 0], X_train[y_train==0, 1], color='g')
plt.scatter(X_train[y_train==1, 0], X_train[y_train==1, 1], color='r')
plt.scatter(x[0], x[1], color='b')
plt.show()
image

由此可以看出新的样本点应该是和红色点是一类。

KNN过程

欧拉距离:

\sqrt{(x^(a)-x^(b))^2 + (y^(a)-y^(b))^2}

\sqrt{(x^(a)-x^(b))^2 + (y^(a)-y^(b))^2 + (z^(a)-z^(b))^2}

\sqrt{(X_1^(a)-X_1^(b))^2 + (X_2^(a)-X_2^(b))^2 + ... + (X_n^(a)-X_n^(b))^2}

\sqrt{\sum_{i=1}^n(X_i^(a)-X_i^(b))^2}
from math import sqrt
distances = []
for x_train in X_train:
    d = sqrt(np.sum((x_train -x)**2))
    distances.append(d)
distances

# 等价于下面这行代码
distances = [sqrt(np.sum((x_train -x)**2)) for x_train in X_train]
distances

运行结果如下:

image

计算完距离之后还不够,因为我们主要想知道距离样本点最近的点。

np.argsort(distances)

运行结果:
array([8, 5, 7, 6, 9, 3, 0, 1, 4, 2]),我们可以看出距离最近的是索引为为8的点,距离第二近的是索引为5的点。

# 设置k值,找出离样本点最近的k个点的y值
k = 6
nearest = np.argsort(distances)
topK_y = [y_train[i] for i in nearest[:k]]

运行结果:[1, 1, 1, 1, 1, 0]我们可以看出,距离样本点最近的6个点中,前5个点的y值均为1.

# 计算不同类的点的个数,统计频数
from collections import Counter
Counter(topK_y)

运行结果:Counter({1: 5, 0: 1})这就表示值为1的元素有5个,值为0的元素只有1个。

# 就像投票一样,我们选出票数最多的一位
votes = Counter(topK_y)
votes.most_common(1)
# 由上面我们得到的是一个列表,但是我们只关心新样本所属的类别,因此只需要取出的类别值即可。
votes.most_common(1)[0][0]
image

由此我们可以看出,新的样本最有可能是1这一类。

上一篇下一篇

猜你喜欢

热点阅读