机器学习实战 K-近邻算法

2018-11-18  本文已影响0人  今昔何夕丶

K-近邻算法

优点:精度高、对异常值不敏感、无数据输入假定

缺点:计算复杂高、空间复杂度高

适用数据范围:数值型和标称型

一般流程

收集数据:可以使用任何方法

准备数据:距离计算所需要的数值,最好是结构化的数据结构

分析数据:可以使用任何方法

训练算法:此步骤不适用于K-近邻算法

测试算法:计算错误率

使用算法:首先需要输入样本数据和结构化的输出结果,然后运行K-近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。


def createDataset():

    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])    #我觉得可以这样理解,每一种方括号都是一个维度(秩),这里就是二维数组,最里面括着每一行的有一个方括号,后面又有一个,就是二维,四行

    labels=['A','A','B','B']

    return group,labels

createDataset()函数创造数据集和标签


K-近邻算法伪代码

计算已知类别数据集中的点与当前点之间的距离

按照距离递增次序排序

选取与当前点距离最小的k个点

确定前k个点所在类别的出现频率

返回前k个点出现频率最高的类别作为当前点的预测分类

def classify0(inX,dataSet,labels,k):   #inX是你要输入的要分类的“坐标”,dataSet是上面createDataSet的array,就是已经有的,分类过的坐标,label是相应分类的标签,k是KNN,k近邻里面的k

    dataSetSize=dataSet.shape[0]    #dataSetSize是dataSet的行数,用上面的举例就是4行

    diffMat=tile(inX,(dataSetSize,1))-dataSet    #前面用tile,把一行inX变成4行一模一样的(tile有重复的功能,dataSetSize是重复4遍,后面的1保证重复完了是4行,而不是一行里有四个一样的),然后再减去dataSet,是为了求两点的距离,先要坐标相减,这个就是坐标相减

    sqDiffMat=diffMat**2    #上一行得到了坐标相减,然后这里要(x1-x2)^2,要求乘方

    sqDistance=sqDiffMat.sum(axis=1)    #axis=1是列相加,这样得到了(x1-x2)^2+(y1-y2)^2

    distances=sqDistance**0.5    #开根号,这个之后才是距离

    sortedDistIndicies=distances.argsort()     #argsort是排序,将元素按照由小到大的顺序返回下标,比如([3,1,2]),它返回的就是([1,2,0])

    classCount={}

    for i in range(k):

        voteIlabel=labels[sortedDistIndicies[i]]

        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1     #get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1

    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)    #key=operator.itemgetter(1)的意思是按照字典里的第一个排序,{A:1,B:2},要按照第1个(AB是第0个),即‘1’‘2’排序。reverse=True是降序排序

    return sortedClassCount[0][0]    #返回类别最多的类别

上一篇 下一篇

猜你喜欢

热点阅读