面试题目总结
2017-05-22 本文已影响0人
安于此生__
阿里机器学习面试的一些题目,
1.说一下KNN的过程(刚开始的时候和k-means搞混了。。。)
KNN是k nearest neighbor 的简称,即k最邻近,就是找k个最近的实例投票决定新实例的类标。KNN是一种基于实例的学习算法,它不同于贝叶斯、决策树等算法,KNN不需要训练,当有新的实例出现时,直接在训练数据集中找k个最近的实例,把这个新的实例分配给这k个训练实例中实例数最多类。KNN也称为懒惰学习,它不需要训练过程,在类标边界比较整齐的情况下分类的准确率很高。KNN算法需要人为决定K的取值,即找几个最近的实例,k值不同,分类结果的结果也会不同。
2. ID3 C4.5 CART根据什么选择特征
ID3根据信息增益选择特征。C4.5根据信息增益率。CART根据基尼指数
参考链接:决策树(ID3、C4.5、CART)
3. 朴素贝叶斯的假设是什么?
所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。
4. 如果某个特征在训练集出现,测试集没出现没出现,概率计算出来是0,怎么解决?
某特征在训练集中未出现,避免概率计算为0,引入laplace平滑方法
5. SVM软间隔目标函数,及对偶函数的形式
当数据近似线性可分时,通过软间隔最大化学习一个线性分类器,即线性支持向量机;当数据线性不可分时,通过核技巧及软间隔最大化学习非线性支持向量机。
目标函数变为:
求min其中C称为惩罚参数,且C>0。在线性支持向量机中加入了惩罚项。
利用拉格朗日函数的对偶性,将问题变成一个极大极小优化问题:
了解更多:SVM
6. 神经网络的误差传播的原理
BP网络拓扑结构 印象中记得老师讲。以3层的为例。紫色圈圈的误差,需要由它所有的输入负责,即每一个粉红色的圈圈都对误差负有责任,每个粉红色的圈圈的误差是两个紫色圈圈分给它的误差之和。7.梯度提升树