【机器学习】(三)线性模型

2019-12-29  本文已影响0人  超级超级小天才

基本形式

给定由d个属性描述的示例x=(x1; x2; …; xd),其中xi是x在第i个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即

image
写成向量形式即
image

线性回归

线性回归(linear regression)目的即确定一个w和b,是的f(x)与y的均方误差最小化。

w和b最优解的闭式(closed-form)解为:


image

多元线性回归

更一般的情形是对于d个属性描述的变量,进行多元线性回归(multivariate linear regression)


image

为便于讨论,令w'=(w;b),数据集D表示为一个m×(d+1)大小的矩阵X,器每一行对应一个示例,每行前d个元素对应于示例的d个属性值,最后一个元素恒置为1,即


image

标记向量为y,则有


image

image

并将其对w'求导得到:


image
令其为0可以得到w'的最优解的闭式解

广义线性模型

广义线性模型(generalized linear model)即当f与x不是标准的线性关系时,可以选取一个恰当的单调可微函数g,令


image

得到广义线性模型,g称为联系函数(link function)

例如当g(·)=ln(·)时可以得到对数线性回归(log-linear regression)


image

对数几率回归

对于二分类任务,可以通过将输出标记y归到0或1,从而使用线性回归的方法,即将预测值转换成0/1值,可以使用单位阶跃函数(unit-step function)


image

但是由于其不连续,可以使用单位阶跃函数的替代函数(surrogate function)并希望其单调可微,从而可以选取对数几率函数(logistic function),一种Sigmoid函数(即形似S的函数)

image image

它可以将z值转换成一个0/1值,从而


image

将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值成为几率(odds),反映了x作为正例的相对可能性,对其取对数即对数几率(log odds,或logit)

确定w与b

通过极大似然法(maximum likelihood method)估计w和b,给定数据集(xi,yi),对率回归模型最大化对数似然(log-likelihood)

image
上式最大化等价于最小化下式
image
该式是关于β的高阶可导连续凸函数,根据凸优化理论可以使用梯度下降法、牛顿法等求其最优解得到:
image

线性判别分析

线性判别分析(Linear Discriminant Analysis,LDA)是一种经典的线性学习方法,适用于二分类问题。

LDA的思想为:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

image

LDA欲最大化的目标即Sb和Sw的广义瑞利商(generalized Rayleigh quotient)


image

求算方式:由于不失一般性(J式中分子和分母都是关于w的二次项,因此J的解与w的长度无关,只与其方向有关),可以设分母为1,等价于等式条件约束下的凸优化问题:


image

使用拉格朗日乘子可以求解其对偶问题,从而求解该优化问题,考虑到数值解的稳定性,一般会将Sw进行奇异值分解

多分类学习

多分类学习的基本思路是拆解法,即将多分类任务拆为若干个二分类任务求解。先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。

经典的拆分策略有

一对一 与 一对其余

假设有N个类别。

image

多对多

MvM是每次将若干个类作为正类,若干个其他类作为反类(OvO和OvR是MvM的特例)。MvM的正、反类构造可以使用最常用的纠错输出码(Error Correcting Output Codes,ECOC)技术。

ECOC是将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。ECOC工作过程主要分为两步

常用的编码方式

image

纠错输出码具有一定的容错能力

类别不平衡问题

类别不平衡(class-imbalance)指分类任务中不同类别的训练样例数目差别很大的情况。一般的应对方式是再缩放(rescaling)

注意!

全文参考:周志华 著 《机器学习》


转载请注明出处,本文永久更新链接:小天才的杂货铺-个人博客

上一篇 下一篇

猜你喜欢

热点阅读