K-最近邻(K-nearest neighbors, KNN)

2020-02-19  本文已影响0人  MJades

过程:

  1. 计算测试数据与各个训练数据之间的距离;(新的数据点一般用“?”表示)
  2. 按照距离的递增关系进行排序;
  3. 选取距离最小的K个点;
  4. 确定前K个点所在类别的出现频率;
  5. 返回前K个点中出现频率最高的类别作为测试数据的预测分类。

注意:

  1. 计算距离之前,要对数据进行scale,使所有的变量在一个可比的尺度上;
  2. 在二元匹配问题上,K选择奇数;
  3. K值不能是分类数据的倍数;
  4. KNN容易消耗内存;
  5. 它对异常值不灵敏,能适应分类数据中的错误。

参考

  1. https://www.jianshu.com/p/5f77c63dd3d0
上一篇 下一篇

猜你喜欢

热点阅读