K-NN算法
什么叫做K-Nearest Neighbours?
K临近算法是一个简单的分类算法,它也可以用来做回归。
K-NN是一个非参数算法,不需要做出任何假设,他是通过基础实例(意味着我们的算法没有明确地学习模型。相反,它选择记住训练实例。)并用于监督学习设置。
K-NN也被叫做基于实例的惰性算法。
K-NN算法是如何工作的?
K-NN在用于分类数据时,输出的类的类型是在已有的类型。
这个方法有三个关键的元素。一个是标签对象,例如:一个是对象之间的距离,一组存储的记录,还有就是最邻近的点的个数K的值。
做预测
当模型已经准备好了,就需要对没有分类标签的对象进行分类。首先计算未分类对象与其他实例分类对象之间的距离矩阵,一般使用欧式距离。选取K个距离预测对象最短的距离的训练数据,依靠它们的分类标签对预测对象进行分类。
距离
欧式距离是我们使用最多的距离。可以参考两点之间的距离公式。
另外还有一些其他的距离
马氏距离,名氏距离,绝对值距离
选取K的值
算法非常简单,但是K值的选取不容易,一个较小的K会使结果受到较大的噪声影响。一个较大的K值会造成计算花费时间。K值的选取和个人的经验有关,可以多次尝试不同的K值。
算法实现
KNN算法十分简单,自己用语言写也不复杂,这里还是使用sklearn包的封装。
from sklearn.neighbors import KNeighborsClassifier#导入封装包
#除了分类模型外,还可以做回归模型,在上面引入即可。
import numpy as np
knn = KNeighborsClassifier(n_neighbors=3)#初始化KNN算法分类模型
X = np.array([[0.1,0.1],[0,0],[1,0.9]])
y = ['B','B','A']#分类标签
knn.fit(X,y)#模型训练
print(knn.predict([[1,0.2]]))#模型预测