机器学习

SVM总结

2019-07-20  本文已影响101人  博士伦2014

1. 请说一下SVM的原理/简要介绍SVM

SVM 是一种二分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器

以上各种情况下的数学推导应当掌握,硬间隔最大化(几何间隔)、学习的对偶问题、软间隔最大化(引入松弛变量)、非线性支持向量机(核技巧)。


SVM

2. SVM 为什么采用间隔最大化

可以借此机会阐述一下几何间隔以及函数间隔的关系。

3. 为什么要将求解 SVM 的原始问题转换为其对偶问题

4. 为什么 SVM 要引入核函数

5. SVM 不同核函数之间的区别

一般选择线性核和高斯核,也就是线性核与 RBF 核。

其他的还有

6. 扩展SVM到支持多个类别

两种方法

  1. OVR (one versus rest): 对于K个类别的情况, 训练K个SVM, 第j个SVM用于判读任意条数据是属于类别j还是属于类别非j. 预测的时候, 具有最大值的 𝜃_i^𝑇 𝒙表示给定的数据 x 属于类别i.

  2. OVO (one versus one), 对于K个类别的情况, 训练K * (K-1) /2个SVM, 每一个SVM只用于判读任意条数据是属于K中的特定两个类别. 预测的时候, 使用K * (K-1) /2个SVM做 K * (K-1) /2次预测, 使用计票的方式决定数据被分类为哪个类别的次数最多, 就认为数据x属于此类别.

举例

7. 支持向量机的优势

8. 缺点

9. 为什么SVM对缺失数据敏感

10. SVM推导

函数间隔—>几何间隔—>几何间隔最大化—>函数间隔最大化—>令r^=1—> max 变 min—->拉格朗日函数—->求解对偶问题的3个步骤
(1)线性可分 (2)线性近似可分 (3)线性不可分

SVM和LR的不同

1、样本点对模型的作用不同。SVM中,只有关键的样本点(支持向量)对模型结果有影响,而LR中,每一个样本点都对模型有影响。
2、损失函数不同。SVM是hinge损失函数,LR是log损失函数
3、理论基础不同。SVM基于严格的数学推导,LR基于统计。
4、输出不同。LR可以对每个样本点给出类别判断的概率值,SVM无法做到。
5、可处理的特征空间维度不同。LR在特征空间维度很高时,表现较差。SVM则可以通过对偶求解高效应对这一挑战。
6、防止过拟合能力不同。SVM模型中内含了L2正则,可有效防止过拟合。LR要自己添加正则项。
7、处理非线性分类问题能力不同。SVM可通过核函数灵活地将非线性问题转化为线性分类问题。LR如果要做到这一点,需要自己手动地进行特征转换。
8、处理分类问题能力不同。SVM只能处理二类分类问题,如果要处理多类别分类,需要进行 one VS one 或one VS all建模。LR可以直接进行多类别分类。
9、计算复杂度不同。对于海量数据,SVM的效率较低,LR效率比较高。
10、对数据要求不同。SVM依赖于数据表达出的距离测度,所以需要对数据进行标准化处理,而LR不需要。
11、能力范围不同。 SVM拓展后,可解决回归问题,LR不能。
12、可解释性不同。LR基于统计,可解释性比SVM好。
13、抗噪声数据能力不同。SVM的损失函数基于距离测度,抗噪声能力要强于LR。

参考:
https://cloud.tencent.com/developer/user/1478933
BAT面试题1:请简要介绍下SVM
机器学习面试篇:蚂蚁金服电话面试二
数据挖掘面试题之SVM和LR的不同
SVM 高频面试题
这样一步一步推导支持向量机,谁还看不懂
机器学习岗位面试问题汇总 之 SVM

上一篇下一篇

猜你喜欢

热点阅读