数据分析机器学习与数据挖掘Python语言与信息数据获取和机器学习

机器学习实战--KNN代码详解

2017-12-17  本文已影响18人  26f30aca5431

写在前面

走了很多弯路,看了很多风景,才发现,想要好好学算法,还是要一行一行敲代码,于是有了这个系列。

这个系列按照机器学习实战的章节来写,由于市面上已经有很多同类的文章,一般以介绍算法,贴代码,举例子为主,个人读下来,觉得对于实现的代码还是不能有很好的理解,所有有了这个系列。要写这个系列还有三个原因:

knn介绍

邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。平常生活中我们都会下意识的运用到我们的判断中,比如富人区和穷人区,判断一个人是富人还是穷人根据他的朋友的判断,就是运用了kNN的思想。

KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离(这里的markdown还不太支持LaTeX,我还是把辛苦敲的公式贴出来,有需要的朋友可以自取):
$D(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + ... + (x_n-y_n)^2} = \sqrt{\sum\limits_{i=1}{n}(x_i-y_i)2}$

欧氏距离.png

或曼哈顿距离
$D(x,y) =|x_1-y_1| + |x_2-y_2| + ... + |x_n-y_n| =\sum\limits_{i=1}^{n}|x_i-y_i|$


曼哈顿距离.png

欧式距离和曼哈顿距离都是闵可夫斯基距离(Minkowski Distance)$p=2$和$p=1$的特例,定义为:
$D(x,y) =\sqrt[p]{(|x_1-y_1|)^p + (|x_2-y_2|)^p + ... + (|x_n-y_n|)^p} =\sqrt[p]{\sum\limits_{i=1}{n}(|x_i-y_i|)p}$

闵可夫斯基距离.png

KNN算法实现

本节主要参考K近邻法(KNN)原理小结
这里主推一下刘大大的博文,对每个算法有很深刻的见解,一般在看不懂李航的《统计学习方法》的时候,去看刘大大的博客会有豁然开朗的感觉。刘大大在博文中提到scikit-learn里只使用了蛮力实现(brute-force),KD树实现(KDTree)和球树(BallTree)实现,所以他的这篇文章中只讨论这几种算法的实现原理。其余的实现方法比如BBF树,MVP树等没有做讨论,需要对算法有更深一步了解的童鞋,移步刘大大的文章~

实战代码

这一部分主要是参考实战,然后主要讲解一些具体的实现~

from numpy import *
import operator
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

group,labels = createDataSet()

输出:

In [2]:group
Out[2]: array([[ 1. ,  1.1],
       [ 1. ,  1. ],
       [ 0. ,  0. ],
       [ 0. ,  0.1]])
In [3]: labels
Out[3]: ['A', 'A', 'B', 'B']
def classify0(inX,dataSet,labels,k):
    dataSetSize = dataSet.shape[0]
    #tile 扩展矩阵的函数
    diffMat = tile(inX,(dataSetSize,1))-dataSet
    sqdiffMat = diffMat**2
    sqDistances = sqdiffMat.sum(axis = 1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()
    print(sortedDistIndicies)
    classCount={}
    for i in range(k):
        voteLabels = labels[sortedDistIndicies[i]]
        #dict.get  获取指定键的值,默认返回none,键值不存在时,不同于dict['key']直接返回error,也可以指定,下面指定为0
        classCount[voteLabels] = classCount.get(voteLabels,0)+1
    print(classCount)
    #Python3.5中:iteritems变为items(python2   classCount.iteritems())
    #items可以输出dict中的(key,value)
    #sorted中的key参数传入函数,operator.itemgetterr函数获取的不是值,而是定义了一个函数,通过该函数作用到对象上才能获取值。
    #operator.itemgetter(1) 为获取classCount.items()中的第二个参数
    sortedClassCount = sorted(classCount.items(),key = operator.itemgetter(1),reverse = True)
    print(sortedClassCount)
    return sortedClassCount[0][0]
In [7]: classify0([0,0.2],group,labels,2)
[3 2 1 0]
{'B': 2}
[('B', 2)]
Out[6]: 'B'

深度解读实战代码

argsort函数

import numpy as np
a = np.array([2,0,4,1,2,4,5])
a.argsort()

输出为a从小到大排序后的index:

Out[12]: array([1, 3, 0, 4, 2, 5, 6], dtype=int64)

输出为list的index,提取出来就是list从小到大的排序
$a[1]=0$<$a[3]=1$<$a[0]=2$<$a[4]=2$<$a[2]=4$<$a[5]=4$<$a[5]=5$


dict.get vs dict['key']

a = {'name': 'wang'}

输出

a['age']
Out[16]: KeyError: 'age'

输出:

a.get('age')
a.get('age', 10)
Out[17]: 10

dict['key']只能获取存在的值,如果不存在则触发KeyError
而dict.get(key, default=None)则如果不存在则返回一个默认值,如果设置了则是设置的,否则就是None


Python中sort 和 sorted函数

a = [1,2,1,4,3,5]
a.sort()

输出:

a
Out[18]: [1, 1, 2, 3, 4, 5]
a = [1,2,1,4,3,5]
sorted(a)

输出:

a
Out[19]: [1, 2, 1, 4, 3, 5]

sorted函数

list1 = [('david', 90), ('mary',90), ('sara',80),('lily',95)]
sorted(list1,cmp = lambda x,y: cmp(x[0],y[0]))
TypeError: 'cmp' is an invalid keyword argument for this function
sorted(list1,key = lambda list1: list1[0])
Out[23]: [('david', 90), ('lily', 95), ('mary', 90), ('sara', 80)]

list1[0]表示用list中的第一个元素排序

sorted(list1,key = lambda list1: list1[1])
Out[24]: [('sara', 80), ('david', 90), ('mary', 90), ('lily', 95)]

list1[1]表示用list中的第二个元素排序


三道sorted面试题

  1. key函数的运用
students = [('john', 'A', 15), ('jane', 'B', 12), ('dave','B', 10)]
sorted(students,key=lambda s: s[2]) #按照年龄来排序

  1. 多个字符的排序

'asdf234GDSdsf23'这是一个字符串排序,排序规则:小写<大写<奇数<偶数

s = 'asdf234GDSdsf23'  #排序:小写-大写-奇数-偶数
#解法1:
print("".join(sorted(s, key=lambda x: (x.isdigit(),x.isdigit() and int(x) % 2 == 0,x.isupper(),x))))
Out[25]: addffssDGS33224
#解法2:
print("".join(sorted(s, key=lambda x: (x.isdigit(),x.isupper(),x.isdigit() and int(x) % 2 == 0,x))))
Out[26]: addffssDGS33224

解释:

  • Boolean 的排序会将 False 排在前,True排在后 .
print("".join(sorted(s, key=lambda x: (x.isdigit(),x.isupper(),x.isdigit() and int(x) % 2 == 0))))
Out[27]: asdfdsfGDS33242

  1. 特殊需求的排序
list1=[7, -8, 5, 4, 0, -2, -5]

要求1.正数在前负数在后 2.整数从小到大 3.负数从大到小

#解法1:
sorted(list1,key = lambda x:(x<0,x<0 and -x,x))
Out[28]:  [0, 4, 5, 7, -2, -5, -8]
解法2:
sorted(list1,key=lambda x:(x<0,abs(x)))
Out[29]: [0, 4, 5, 7, -2, -5, -8]

参考资料

  1. K近邻法(KNN)原理小结
  2. Python中sort 和 sorted函数
  3. 李航. 统计学习方法[M]. 清华大学出版社, 2012.
  4. 周志华. 机器学习 : = Machine learning[M]. 清华大学出版社, 2016.
  5. 哈林顿李锐. 机器学习实战 : Machine learning in action[M]. 人民邮电出版社, 2013.

希望对看到文章的你有所帮助,欢迎沟通交流: Monke

上一篇下一篇

猜你喜欢

热点阅读