面试题目总结

2017-05-22 本文已影响0人安于此生__

阿里机器学习面试的一些题目，

1.说一下KNN的过程（刚开始的时候和k-means搞混了。。。）

KNN是k nearest neighbor 的简称，即k最邻近，就是找k个最近的实例投票决定新实例的类标。KNN是一种基于实例的学习算法，它不同于贝叶斯、决策树等算法，KNN不需要训练，当有新的实例出现时，直接在训练数据集中找k个最近的实例，把这个新的实例分配给这k个训练实例中实例数最多类。KNN也称为懒惰学习，它不需要训练过程，在类标边界比较整齐的情况下分类的准确率很高。KNN算法需要人为决定K的取值，即找几个最近的实例，k值不同，分类结果的结果也会不同。

2. ID3 C4.5 CART根据什么选择特征

ID3根据信息增益选择特征。C4.5根据信息增益率。CART根据基尼指数

参考链接：决策树（ID3、C4.5、CART）

3. 朴素贝叶斯的假设是什么？

所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

4. 如果某个特征在训练集出现，测试集没出现没出现，概率计算出来是0，怎么解决？

某特征在训练集中未出现，避免概率计算为0，引入laplace平滑方法

5. SVM软间隔目标函数，及对偶函数的形式

当数据近似线性可分时，通过软间隔最大化学习一个线性分类器，即线性支持向量机；当数据线性不可分时，通过核技巧及软间隔最大化学习非线性支持向量机。

目标函数变为：