KNN

2017-12-18 本文已影响38人张伟松

k近邻法：假设输入空间中每个点对应一个分类，可以依据训练数据，将输入空间进行区域划分，对于一个新的测试数据，K近邻法使用距离该测试实例点最近的k个训练数据，取训练数据中类别数最多的为该实例的类别，即在该区域内使用多数表决原则。

算法

给定训练数据集X 以{数据：类别}的形式展示，其中数据为N维实数空间的向量，对于目标数据M，有输入数据X，KNN模型将输入M所对应的类别。
换句话说，目标数据M的类别等同于在M附近的K个训练数据的类别中数量最大的。
极端的情况下，k=1，即取M最近的1个数据的类别，作为该输入的类别；
另一种极端是 k=N，即取所有训练数据中类别最大的类，等同于没有做区域划分。
因此，考虑k值的选择，过小会导致模型过于复杂，易出现过度拟合，过大则造成模型精度不够，合适的k值可使用交叉验证的方法来确定。

kd树

首先构造根节点，根节点包含空间中所有的点；
选择一个超平面（X1的中位数）对1进行切割；
生成的两个区域lt为X1小于切分点的区域，rt为X1大于切分点的区域；
重复上述动作，直到子区域不能再划分。

搜索

使用kd树进行搜索的算法比较精妙，这里写不下就不写了。

KNN

算法

kd树

搜索

猜你喜欢

热点阅读