机器学习基石笔记:11 Linear Models for Cl
2019-05-01 本文已影响5人
cherryleechen
一、二元分类的线性模型
![](https://img.haomeiwen.com/i8016875/3f6684441e618ef6.png)
![](https://img.haomeiwen.com/i8016875/dbd5f3978fc05774.png)
![](https://img.haomeiwen.com/i8016875/6a1cf1b88130bc2a.png)
![](https://img.haomeiwen.com/i8016875/8d3a77e338d42027.png)
![](https://img.haomeiwen.com/i8016875/87cd08bde500a57b.png)
![](https://img.haomeiwen.com/i8016875/1d21fafedb149538.png)
线性回归后的参数值常用于PLA/PA/Logistic Regression的参数初始化。
二、随机梯度下降
两种迭代优化模式:
![](https://img.haomeiwen.com/i8016875/9d5afce407a43612.png)
若利用全部样本 ------> 利用随机的单个样本,则梯度下降 ------> 随机梯度下降。
![](https://img.haomeiwen.com/i8016875/0ffe8fed87c0c651.png)
SGD与PLA的相似性:
![](https://img.haomeiwen.com/i8016875/59403e331b55107f.png)
![](https://img.haomeiwen.com/i8016875/148b3b2abbd727a5.png)
当迭代次数足够多时,停止。步长常取0.1。
![](https://img.haomeiwen.com/i8016875/f5569468e2cff2a1.png)
三、使用逻辑回归的多分类问题
是非题 ------> 选择题:
![](https://img.haomeiwen.com/i8016875/faa3d0db9268c116.png)
每次识别一类A,将其他类都视作非A类。
![](https://img.haomeiwen.com/i8016875/e92c1f41e82de37c.png)
结果出现问题。
![](https://img.haomeiwen.com/i8016875/41bc7ad49f9461fb.png)
将是不是A类变为是A类的可能性。由硬分类变为了软分类。
![](https://img.haomeiwen.com/i8016875/00a0ceb36268a993.png)
分别计算属于某类的概率,取概率值最大的类为最后的分类结果。
![](https://img.haomeiwen.com/i8016875/478bf9301753d280.png)
OVA总结:
注意每次计算一类概率时都得利用全部样本。
![](https://img.haomeiwen.com/i8016875/dc0bc586117b86fa.png)
四、使用二元分类的多分类问题
OVA经常不平衡,即属于某类的样本过多时,分类结果往往倾向于该类。
为更加平衡,使用OVO。
OVA保留一类,其他为非该类,每次利用全部样本;
OVO保留两类,每次只利用属于这两类的样本。
![](https://img.haomeiwen.com/i8016875/efc26464c15e8d14.png)
通过投票得出最终分类结果。
![](https://img.haomeiwen.com/i8016875/8cc1c53c9b7c89cc.png)
OVO总结:
![](https://img.haomeiwen.com/i8016875/d9ddf92ac50e5280.png)
OVA vs OVO:
![](https://img.haomeiwen.com/i8016875/3afcfb3837ad4008.png)