深度学习-推荐系统-CV-NLP大数据,机器学习,人工智能人工智能/模式识别/机器学习精华专题

机器学习算法—K近邻(一文看懂KNN)

2019-08-17  本文已影响40人  皮皮大

本篇札记对机器学习中K近邻算法(KNN)的基础、原理、实例、超参数以及scikit-learn中的使用和调参等各种知识进行汇总,学习完本篇札记基本上会了KNN算法。

机器学习算法—K近邻(一文看懂KNN)

KNN基础

k-近邻算法(k-nearest neighbor, k-NN)是一种基本分类和回归(预测具体的数值,比如房价、成绩等)的算法,可以解决多分类问题。k近邻算法中的输入为实例的特征向量,输出为实例的类别,类别可以有多类。算法主要思想:

KNN三要素

距离

特征空间中两个实例点的距离是两个实例点相似度的反应。k近邻模型的特征空间一般是n维实数向量空间R^n。一般使用的欧式距离,也可以是其他距离,如:L_p距离,或者Minkowski距离。

假设特征空间X是n维实数向量空间R^n{x_i,x_j}\in X,其中x_i=(x_i^{(1)},x_i^{(2)},....,x_i^{(n)}
x_j=(x_j^{(1)},x_j^{(2)},....,x_j^{(n)}

x_i,x_jL_p的距离定义为L_p(x_i,x_j)=(\sum_{l=1}^{n}|x_i^{(l)}-x_j^{(l)}|^p)^\frac{1}{p}

规定:p\geq1

算法思想

直观解释:给定一个训练数据集,对于新输入的实例,在训练集数据中找出和该实例最邻近的k个实例。这k个实例中的多数属于某个类,就将新实例划分为这个类别。
输入训练数据集:
T=\{(x_1,y_1),(x_2,y_2),...(x_i,y_i)....(x_N,y_N)\}
其中,xi为实例特征向量,yi为实例的类别;i=1,2,3,...N。
输出:实例x所属的类别y

上式中,I为指示函数,即当:yi=cj是为1,不等则为0

手写KNN算法

import numpy as np
from math import sqrt
from collections import Counter
from metrics import accuracy_score   # 直接封装的方法进行调用


class KNNClassifier:
    def __init__(self, k):
        # 构造函数:初始化KNN分类器,传入k值;
        # 将样本定义为私有属性None,外部无法变动
        assert k >= 1, "k must be valid"
        self.k = k
        self._X_train = None
        self._y_train = None
        
    def fit(self, X_train, y_train):
        # 样本数量X_train和输出值的个数必须相同;每个样本实例对应一个结果y
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train and y_train must be same."
        # k <= 总样本数(x的shape属性第一个代表样本总数;第二个代表样本属性的个数)
        assert self.k <= X_train.shape[0], \
            "the feature number of x must be equal to X_train"

        # 传入已知训练数据(X_train, y_train),并且返回
        self._X_train = X_train
        self._y_train = y_train
        return self
    
    def predict(self, X_predict):
        # 给定待预测数据集X_predict, 返回表示预测X_predict的结果向量
        
        # 传入样本(_X_train, _y_train)都不能是空值,fit函数中已经赋值
        assert self._X_train is not None and self._y_train is not None, \
        "must fit before predict"
        # 样本数不限制,预测数据的属性和训练X_train的属性个数必须相同
        assert X_predict.shape[1] == self._X_train.shape[1], \
        "the feature number of X_predict  must be equal to X_train"
        
        # _predict对一个向量进行预测
        y_predict = [self._predict(x) for x in X_predict]
        return np.array(y_predict)
    
    def _predict(self, x):
        # 给出需要预测的数据的特征数量等于原来的特征数量,返回x预测的结果
        # 单个待预测数据的shape属性第一个值即为训练数据X_train的特征属性个数
        assert x.shape[0] == self._X_train.shape[1], \
        "the feature number of x must be equal to X_train"
        
        distances = [sqrt(np.sum((x_train - x)**2)) for x_train in self._X_train]
        nearest = np.argsort(distances)
        
        topK_y = [self._y_train[i] for i in nearest[:self.k]]
        votes = Counter(topK_y)
        
        return votes.most_common(1)[0][0]
    
    def score(self, X_test, y_test):
        '''传入X_test预测得到y_predict,再和y_test传入准确率的函数中:'''
        y_predict = self.predict(X_test)
        return accuracy_score(y_test, y_predict)
    
    def __repr__(self):
        return "KNN(k={})".format(self.k)

准确率计算

def accuracy_score(y_true, y_predict):
    '''准确率的封装:计算y_true和y_predict之间的准确率'''
    assert y_true.shape[0] == y_predict.shape[0], \
    "the size of y_true must be equal to the size of y_predict"

    return sum(y_true ==y_predict) / len(y_true)

训练测试分离_TTS

def train_test_split(X, y, test_ratio=0.2, seed=None):
    """
    将数据X和y按照test_ratio分成X_train, X_test, y_train, y_test
    """
    assert X.shape[0] == y.shape[0], \
    "the size of X must be equal to the size of y"
    assert 0.0 <= test_ratio <=1.0, \
    "test_ration must be valid"
    
    # 设置随机数
    if seed:
        np.random.seed(seed)
    
    # 将X数组的长度随机排列
    shuffled_indexes = np.random.permutation(len(X))
    test_size = int(len(X) * test_ratio)
    test_indexes = shuffled_indexes[:test_size]
    train_indexes = shuffled_indexes[test_size:]
    
    X_train = X[train_indexes]
    y_train = y[train_indexes]
    
    X_test = X[test_indexes]
    y_test = y[test_indexes]
    
    return X_train, X_test, y_train, y_test

数据归一化

归一化思想

处理将所有的数据映射到同一个尺度上。需要注意的是:测试数据的归一化需要使用训练数据集的均值和方差

机器学习算法—K近邻(一文看懂KNN)

两种方法

  1. 最值归一化:数据映射到0-1上面X_{scale}= \frac{x-x_{min}}{x_{max}-x_{min}}
    • 适合分布明显边界的情况:比如考试分数,像素边界
    • 缺点:受outlier影响,比如收入没有边界
    • 使用方法
image.png
  1. 均值方差归一化standardization:数据分布在均值为0,方差为1中x_{scale}=\frac{x-{x_{mean}}}{s}
    • 数据分布没有明显边界
    • 可能存在极端数据
    • 使用方法如下
image.png

代码实现

import numpy as np

class StandScaler:
    # 初始化过程;注意在这个类中方差用scale_表示
    def __init__(self):
        self.mean_ = None
        self.scale_ = None
    
    # 根据传进来的X来获得均值和方差;处理2维数据
    def fit(self, X):
        assert X.ndim == 2, "The dimension of X must be 2"
        # i:表示第i个属性,即第i列;shape[1]:列属性的个数;有多少个特征属性循环多少次
        self.mean_ = np.array([np.mean(X)[:, i] for i in range(X.shape[1])])
        self.scale_ = np.array([np.std(X)[:, i] for i in range(X.shape[1])])
        
        return self
    
    # 方差和均值归一化过程
    def transform(self, X):
        assert X.ndim ==2 , "the dimension of X must be 2"
        assert self.mean_ is not None and self.scale_ is not None, \
            "must fit before transform"
        assert X.shape[1] == len(self.mean_), \
            "the feature number of X must be equal to mean_ and std_"
        
        resX = np.empty(shape=X.shape, dtype=float)
        for col in range(X.shape[1]):
            resX[:, col] = (X[:, col] - self.mean_[col]) / self.scale_[col]
        return resX

网格搜索及调参

参数

KNN算法中的调参问题主要是:

image.png

手写寻找参数

image.png
best_method = ""
best_score = 0.0
best_k = -1
for method in ["uniform", "distance"]:
    for k in range(1, 11):
        knn_clf = KNeighborsClassifier(n_neighbors=k, weights=method)
        knn_clf.fit(X_train, y_train)
        score = knn_clf.score(X_test, y_test)
        if score > best_score:
            best_k = k
            best_score= score
            best_method = method
print("best_k = ", best_k)
print("best_score = ", best_score)
print("best_method = ", method)

搜索明科夫斯基距离对应的p

%%time

# method 固定为distance
best_p = -1
best_score = 0.0
best_k = -1

for k in range(1, 11):
    for p in range(1, 6):
        knn_clf = KNeighborsClassifier(n_neighbors=k, weights="distance", p=p)
        knn_clf.fit(X_train, y_train)
        score = knn_clf.score(X_test, y_test)
        if score > best_score:
            best_k = k
            best_score= score
            best_p = p
            
print("best_k = ", best_k)
print("best_score = ", best_score)
print("best_p = ",best_p)

网格搜索

网格搜索是指将需要调节的参数放入一个类似的网格中,对每种参数方案进行逐步检验,选择出最好效果的参数。

sklearn中KNN使用

在sklearn中使用KNN算法的一般过程是:

如何导入数据和查看数据的信息

from sklearn import datasets
# 手写数字的数字集
digits = datasets.load_digits()
# 查看数据集的具体信息
digits.keys()   # dict_keys(['data', 'target', 'target_names', 'images', 'DESCR'])

# 查看样本信息
X = digits.data
X.shape

# 查看输出实例信息
y = digits.target
y.shape

# 查看输出的具体信息
digits.target_names

如何调用各种类和方法

# 分类的类
from sklearn.neighbors import KNeighborsClassifier

### TTS的导入
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)

# 调用预处理中用于均值归一化的类
from sklearn.preprocessing import StandardScaler

# 用于交叉验证的类
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(knn_clf, param_grid)     # 创建实例并传入参数

缺点

kd树(了解)

k近邻算法最简单的实现方式线性扫描 linear scan。需要计算每个输入实例和每个训练实例之间的距离;当样本量很大的时候,非常耗时。考虑使用特殊的树形结构:kd树来较少距离的计算。

构造平衡kd树

kd树是一种对k维空间中的实例点进行存储以便快速查找数据的数据结构。

搜索kd树

以k=1为例,通过k最近邻方法来进行搜索:

关于二叉树

二叉查找树是一种树形结构,采用了图的树形结构。每个节点最多两个子节点

特点

上一篇 下一篇

猜你喜欢

热点阅读