第五章数据分类算法——基于K领近算法的分类器

2019-10-24 本文已影响0人文颜

5.4 基于K领近算法的分类器

K领近算法（KNN）是查找最邻近的K个样本点，一种用于分类和回归的统计方法，是通过以某个数据为中心，分析离其最近的K个邻居特征，获得该数据中心可能的特征。

计算流程：

1、初始化测试样本到所有样本的距离为最大值，距离计算的方式可以采用余弦相似性或者欧式距离。

2、计算某个样本到每个样本的距离。

3、计算某个样本附近K个样本中的最大距离D。

4、将所有样本中所有小于最大距离D的点取出。

5、不断重复2、3、4步骤，直到所有的样本的K个领近点都筛选出。

首先计算样本的距离，然后找出相应的领近，最后对样本进行分类。