LR与SVM

2019-11-04 本文已影响0人 Manfestain

最大化似然函数： $L(w) = -\sum_{i=1}^{N}\sigma(w^Tx_i + b)^{y_i}(1 - \sigma(w^tx_i + b))^{1-y_i}$

决策边界： $y = I[w^Tx + b \geq 0]$

核函数： $log(1 + exp(-\sum_{i=1}^{n}\alpha_iK(x, x_i)))$ ， $w^T\Phi(x) +b = \sum_{i=1}^{n}\alpha_iK(x, x_i) = 0$

实际中LR不采用核函数方法，因为SVM只依赖于支持向量，而LR考虑每个点，这样核计算量非常大

多分类： $P(y=i|x) = \frac{exp(w_i^Tx + b_i)}{\sum_{k}exp(w_k^Tx + b_i)}$

寻找最大间隔： $min\frac{1}{2}||w||^2$

$s.t. y_i(w^Tx_i + b) \geq 1, i=1…N$

决策边界： $y = I[w^Tx + b \geq 0]$

SVM不直接依赖于数据分布，分类平面不受一类点影响（考虑局部的边界线附近的点，支持向量）

LR受所有数据点的影响（考虑所有数据点，需要先做不平衡处理）
SVM依赖于数据表达的距离度量，需要先做归一化

LR不受限制
LR是对数损失函数log losss，目标是少分错（通过概率假设定义）

SVM是合叶损失函数hinge loss（侧重线性支持向量部分），目标是使分割面到所有样本的距离最大（通过空间距离定义）

损失函数不同是二者的本质
SVM的解具有稀疏性，预测效率更高，SVM以来于惩罚系数，实验中需要做CV
SVM的损失函数自带正则，这就是SVM是结构风险最小化算法的原因

找到一个分类平面，让位置数据仅可能少的落在分类面错误的一边

LR假设数据服从一个分布，加正则项区拟合这个分布（LR是经验风险最小化模型）

在什么情况下，我们需要做高维映射呢？我们之所以要做映射，就是因为特征数量不够多。如果特征数量多，那么用现有的特征就足够了。所以情况（1）的时候，我们特征数量多。并不需要映射。