01 KNN算法 - 概述
KNN算法全称是K近邻算法 (K-nearst neighbors,KNN)
KNN是一种基本的机器学习算法,所谓K近邻,就是k个最近的邻居。即每个样本都可以用和它最接近的k个邻近位置的样本来代替。
KNN是个相对比较简单的算法,比起之前提过的回归算法和分类算法更容易。如果一个人从来没有接触过机器学习的算法,拿到数据后最容易想到的分类方式就是K近邻。打个比方:你们想了解我是个怎样的人,然后你们发现我的身边关系最密切的朋友是一群逗逼,所以你们可以默认我也是一个逗逼。
KNN算法即可以应用于分类算法中,也可以应用于回归算法中。
KNN在做回归和分类的主要区别,在于最后做预测时候的决策不同。在分类预测时,一般采用多数表决法。在做回归预测时,一般使用平均值法。
多数表决法:分类时,哪些样本离我的目标样本比较近,即目标样本离哪个分类的样本更接近。
平均值法: 预测一个样本的平均身高,观察目标样本周围的其他样本的平均身高,我们认为平均身高是目标样本的身高。
KNN算法原理
思考: 图中绿色圆圈属于哪个分类?方块还是三角?
我们发现当样本取值为k=1时,圆圈周围的三角更多,我们认为圆圈属于三角的分类。
当样本取值为k=2,圆圈周围的方块比三角多,我们认为圆圈属于方块分类。
再举个例子:
分别根据甜度和脆度两个特征来判断食物的种类。
根据样本我们普遍发现:
比较甜,比较脆的食物都是水果。
不甜,不太脆的食物是蛋白质。
不甜,比较脆的食物是蔬菜。
于是根据目标的样本甜度和脆度两个特征,我们可以对其进行分类了。
KNN三要素
k值的选择:
先选一个较小的值,然后通过交叉验证选择一个合适的最终值。
k越小,即使用较小的领域中的样本进行预测,训练误差会减小,但模型会很复杂,以至于过拟合。
k越大,即使用交大的领域中的样本进行预测,训练误差会增大,模型会变得简单,容易导致欠拟合。
距离的度量:
使用欧几里得距离:欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
决策规划:
分类:多数表决法、加权多数表决法。
回归:平均值法、加权平均值法。
加权多数表决法:
加权多数表决法
平均值法和加权平均值法:
同样看上面的图,上方的三个样本值为3,下面两个样本值为2,预测?的值。
如果不考虑加权,直接计算平均值:
(3 * 3 + 2 * 2) / 5 = 2.6
加权平均值:权重分别为1/7和2/7。计算加权平均值:
(3 * 3* 1/7 + 2 * 2 * 2/7) / 5 = 2.43
KNN算法的实现方式
1、蛮力实现(brute):
计算预测样本到所有训练集样本的距离,然后选择最小的k个距离,即可得到k个最邻近点。
缺点:当特征数多、样本数多时,算法的效率比较低。
2、KD树 (kd_tree):
首先对训练数据进行建模,构建KD树,然后根据建好的模型来获取邻近样本数据。
后续内容会介绍KD树搜索最小值的方式,让大家直观感受到KD树比蛮力实现要少检索多少数据。