KNN

2018-04-17 本文已影响0人 _沉梦昂志

1.KNN（K-NearestNeighbor）介绍

（1）K最近邻算法，本质上基于一种数据统计的方法。

（2）KNN是一种基于记忆、基于实例的学习，属于“慵懒”学习，没有明显的前期训练过程，而是程序开始运行时，把数据集加载到内存后，不需要进行训练，就可以开始分类。每次来一个未知样本点，就在附近找K个最近的点进行投票

（1）优点：

（2）缺点：

（1）大规模稀疏的数据分析中，KNN的k个最近邻该如何选择？

答：

（2）KNN与LWR很像

准备的数据集都事先打好了标签，一类蓝色，一类红色。现在来了一个绿色待分类数据。

若K=3，则选取离它最近三个数据，显然是两个红色，一个蓝色，这3个点进行投票，于是绿色待分类点被归为红色类

若K=5，选最近5个，这时蓝色三个，红色两个，故而被分为蓝色类

KNN

下图无法用任意一条直线来模拟这个数据集，但是每个局部范围内的数据点却是可以认为在一条直线上，每次来一个未知样本“x”，我们在X轴上以该数据样本为中心，左右各找几个点，将这几个点进行线性回归，算出一条局部直线，然后将未知样本x代入这条直线，就算出了对应的y，完成了一次线性回归。

也就是，每次来一个数据点，都要训练一条局部直线，也即训练一次，并且就使用一次。

LWR

因此，KNN与LWR（locally weighted regression “局部加权回归”）两者很像，都是“量身定制”为未知数据，在局部进行训练。