python机器学习爬虫机器学习与数据挖掘机器学习和人工智能入门

K近邻算法小结

2018-04-06  本文已影响11人  七八音

什么是K近邻?

K近邻一种非参数学习的算法,可以用在分类问题上,也可以用在回归问题上。

算法描述

对未知类别属性的数据集中的每个点依次执行以下操作:
1. 计算已知类别数据集中的点与当前点之间的距离;
2. 按照距离递增次序排序;
3. 选取与当前点距离最近的k个点;
4. 确定前k个点所在类别的出现频率;
5. 返回前k个点出现频率最高的类别作为当前点的预测分类。

优点

算法简单 ,模型容易理解,没有学习训练过程,通常情况下不需要做很大调整就有着不错的表现;因此通常用作一个问题的baseline(最差、最基本的解决方案)

局限性

  1. 当实例特征过多,或者实例中大部分为稀疏特征时,模型表现并不如意;
  2. 当数据集过大时,分类过程变得十分缓慢;
    因此实际过程中,只能用来处理一些小数据集,同时数据特征不多的情况,并不常用!
上一篇 下一篇

猜你喜欢

热点阅读