第三章 线性回归

2018-08-21  本文已影响0人  康君爱上了蕊酱

基本形式

公式表示:f(x)=w_1x_1+w_2x_2+...+w_dx_d+b特点有:形式简单,易于建模,容易解释。

线性回归

线性回归的目的就是学得一个线性模型尽可能准确的预测实际输出标记,这个过程可以称为线性回归

给定一个数据集D= \lbrace (x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m) \rbrace其中x_i=(x_{i1};x_{i2};\ldots;x_{id}),y_i \in R公式中m:样本个数,d:属性个数。

对于这样一个数据集我们想要对其进行线性回归,核心就是模型:f(x_i)=wx_i+b \implies f(x_i)\approx y_i
使预测值和真实标记尽量接近,接近程度通过均方误差来度量
E(w,b)=\sum^m_{i-1}(y_i-wx_i-b)^2
通过使均方误差最小,来解的对应的最优w,b,从而确定线性模型。

这整个过程就是线性回归的过程,特点有以下:

除了基本的线性模型外,还有拓展形式:
y=g^{-1}(w^Tx+b)
这种形式称为“广义线性模型”,其中g(\cdot)称为“联系函数”,例如当g(\cdot)=ln(\cdot)的时候,模型为
y=ln^{-1}(w^Tx+b)
称为“对数线性模型”。

对数几率回归

当进行分类的任务时,如何将预测的输出标记对应到具体的类别呢?

首先,类别需要一个数字的表示方式,比如:\lbrace0,1\rbrace分别表示两个类别(正例,反例);然后,需要根据预测输出标记y数值的不同将样本对应到不同的类别,就需要一个合适的g(\cdot);最后,通过计算方法得到模型参数w,b

g(\cdot)的选择有:

线性判别分析

线性判别分析(LDA)是一种通过投影距离来分类的线性学习方法,也称为“Fisher判别分析”。

多分类学习

多分类学习就是通过对多种类数据的学习,能够对新样本进行准确分类的过程。主要思路就是,将多分类问题分解为多个二分类问题,产生多个学习器,形成多个结果,然后集成一个最终的结果。对于数据集D=\lbrace (x_1,y_1),(x_2,y_2),...,(x_m,y_m)\rbrace,y_i \in \lbrace C_1,C_2,...,C_N \rbrace,方式有以下三种:

类别不平衡问题

类别不平衡指在训练集中的正反类样本数目不想当。这种情况会导致学习器效果下降。例如:998个反例,2个正例,只要形成一个只返回反例的学习器就能达到99.8%的精度。

二分类任务中,在一个训练集中,假设有m^+个正例,m^-个反例,正例的观测几率为\frac{m^+}{m^-}。我们使用y=m^Tx+b对结果进行预测,\frac{y}{1-y}就是正例的推测真实几率,大于观测几率的时候,就认为是正例。当正反例数目相当的时候,观测几率近似为1。当数目不想等的时候,我们对推测真实几率进行再缩放\frac{y'}{1-y'}=\frac y{1-y} \times \frac{m^-}{m^+},然后大于1就认为是正例。(再缩放是代价敏感学习的基础)

这个过程中一个很关键的假设就是训练集中的样本来自真实样本的无偏采样,而往往不能实现,因此有以下解决办法:

上一篇 下一篇

猜你喜欢

热点阅读