程序员的数学程序员机器学习与数据挖掘

统计学习方法笔记:3.k近邻法

2018-12-19  本文已影响1人  howie6879

这是我参加mlhub123组织的书籍共读计划的读书笔记,活动见mlhub第一期读书计划

k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法,本书只讨论分类形式:

k近邻算法

什么是k近邻算法?

给定一个训练集:T = \{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\},其中x_i为实例的特征向量,y_i\in \gamma =\\{c_1,c_2,...,c_k\\},输入实例特征向量x,输出该实例特征向量的类别y

关键点在于是如何进行类别的判断,描述如下:

image

思想很简单,就是给定一个训练集,输入一个实例,就在训练集中找出与该实例最邻近的k个实例,然后进行多数表决,这k个实例的多数属于某个类,就把该输入实例分为这个类

上面3.1的公式这里解释一下:随着变量j的递增,c_j代表不同的类别,每次x_i对应的y_i会和c_j进行比较,如果y_i等于c_j,该类别计数加一,直到y_1,y_2,,,y_ic_j比较完毕,累加之和最高的c_j就是输出y(意思就是判断输入实例邻域的实例在此类别占据多少个数目),至此,分类成功

k近邻模型

k近邻法使用的模型实际上对应于对特征空间的划分,模型由三个基本要素——距离 度量、k值的选择和分类决策规则决定

模型

通过上面的叙述,当我们知道:

此时对于任何一个新的输入实例,都可以确定其所属的类

什么是单元?

特征空间中,对每个训练实例点i_x,距离该点比其他点更近的所有点组成一个区域,叫作单元(cell),最终会将特征空间划分为下图所示:

image

距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映,k近邻模型的特征空间一般是n维实数向量空间R^n,使用的距离是欧氏距离,但也可以是其他距离,如更一般的L_p距离(L_p distance)或Minkowski距离(Minkowski distance)

image

k值的选择

k值的选择会对k近邻法的结果产生重大影响:

分类决策规则

k近邻法中的分类决策规则往往是多数表决(majority voting rule),即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类,实际上等价于经验风险最小化

k近邻法的实现:kd树

实现k近邻法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索

k近邻法最简单的实现方法是线性扫描(linear scan),这时要计算输入实例与每一个训练实例的距离,当训练集很大时,计算非常耗时,这种方法是不可行的

为了提高k近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数,具体方法很多,下面介绍其中的kd树(kd tree)方法

构造kd树

k-d树(k-dimensional树的简称),是一种分割k维数据空间的数据结构,主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)

k-d树是二叉树,表示对k维空间的一个划分(partition),其中每个结点对应于一 个k维超矩形区域,且该超平面垂直于当前划分维度的坐标轴,并在该维度上将空间划分为两部分,一部分在其左子树,另一部分在其右子树

image

实际做一道例题有助于对算法的理解:

image image

搜索kd树

给定一个目标点,搜索其最近邻,首先找到包含目标点的叶结点;然后从该叶结点出发,依次回退到父结点;不断查找与目标点最邻近的结点,当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上,效率大为提高

image

说明

有助于理解kd树的博客文章:

上一篇下一篇

猜你喜欢

热点阅读