KNN

2018-04-17  本文已影响0人  _沉梦昂志

1.KNN(K-NearestNeighbor)介绍

(1)K最近邻算法,本质上基于一种数据统计的方法。

(2)KNN是一种基于记忆、基于实例的学习,属于“慵懒”学习,没有明显的前期训练过程,而是程序开始运行时,把数据集加载到内存后,不需要进行训练,就可以开始分类。每次来一个未知样本点,就在附近找K个最近的点进行投票

2.KNN优缺点

(1)优点:

(2)缺点:

3.其他相关问题

(1)大规模稀疏的数据分析中,KNN的k个最近邻该如何选择?

    答:

(2)KNN与LWR很像

准备的数据集都事先打好了标签,一类蓝色,一类红色。现在来了一个绿色待分类数据。

若K=3,则选取离它最近三个数据,显然是两个红色,一个蓝色,这3个点进行投票,于是绿色待分类点被归为红色类

若K=5,选最近5个,这时蓝色三个,红色两个,故而被分为蓝色类

KNN

下图无法用任意一条直线来模拟这个数据集,但是每个局部范围内的数据点却是可以认为在一条直线上,每次来一个未知样本“x”,我们在X轴上以该数据样本为中心,左右各找几个点,将这几个点进行线性回归,算出一条局部直线,然后将未知样本x代入这条直线,就算出了对应的y,完成了一次线性回归。

也就是,每次来一个数据点,都要训练一条局部直线,也即训练一次,并且就使用一次。

LWR

因此,KNN与LWR(locally weighted regression “局部加权回归”)两者很像,都是“量身定制”为未知数据,在局部进行训练。

上一篇下一篇

猜你喜欢

热点阅读