第三章 线性模型

2018-10-27  本文已影响0人  余罪adsk

3.1 基本形式

给定由d个属性的示例x=(x_1;x_2;...;x_d),其中x_i是x在第i个属性上的取值,线性模型试图学习一个通过属性的线性组合来进行预测的函数:
f(x)=w_1x_1+w_2x_2+...+w_dx_d+b \tag{3.1}
或者
f(x)=w^Tx+b \tag{3.2}
其中w=(w_1;w_2;...;w_d).

3.2 线性回归

给定数据集D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)},其中x_i=(x_{i1};x_{i2};...x_{id}),y_i\in R,线性回归试图学得:
f(x_i)=wx_i+b,使得f(x_i)\approx y_i. \tag{3.3}
我们采用均方误差作为回归任务的性能度量,即
(w^*,b^*)=\underset{(w,b)}{\arg\min} \sum_{i=1}^m(f(x_i)-y_i)^2\tag{3.4}
基于均方误差最小化求解的方法称为“最小二乘法"[c++实现],对w和b求导:
\frac{\partial E_{(w,b)}}{\partial w} = 2\left(w\sum_{i=1}^m x_i^2 - \sum_{i=1}^m (y_i - b)x_i \right) \tag{3.5}
\frac{\partial E_{(w,b)}}{\partial b} = 2\left(mb - \sum_{i=1}^m (y_i - wx_i) \right) \tag{3.6}
令(3.5)和(3.6)为零可得到w和b的最优解的闭式解
w=\frac{\sum_{i=1}^m y_i(x_i-\overline{x})}{\sum_{i=1}^m x_i^2 - \frac{1}{m} \left( \sum_{i=1}^m x_i^2 \right) ^2 } \tag{3.7}
b=\frac{1}{m} \sum_{i=1}^m (y_i-wx_i) \tag{3.8}
其中\overline{x} = \frac{1}{m} \sum_{i=1}^m x_i为x的均值
类似的,对于“多元线性回归”同样可以用最小二乘法求解

3.3 对数线性回归

我们可以把线性回归模型写成y=w^Tx+b,其中y代表由模型预测出的值,如果我们使模型去预测y的衍生物,例如
\ln{y}=w^Tx+b \tag{3.9}
这就是“对数线性回归”,实际上就相当于让e^{w^Tx+b}逼近y,实质上是输入空间的线性组合对输出空间的一个映射,即
y=g^{-1}(w^Tx+b) \tag{3.10}
以上都在进行回归学习,如果要进行分类的话,例如二分类任务,其输出标记为y\in{\{0,1\}},如果要将z=w^Tx+b转换为0/1值,可以用阶跃函数
y=\begin{cases} 0, & \text{z<0;} \\ 0.5, & \text{z=0;} \\ 1, & \text{z>0;} \end{cases} \tag{3.11}
如图所示:

单位阶跃函数与对数几率函数.PNG

但阶跃函数不连续,于是我们用一个“替代函数”,例如对数几率函数:
y=\frac{1}{1+e^{-z}} \tag{3.12}
上式可以写为
\ln{\frac{y}{1-y}} = w^Tx+b \tag{3.13}
其中,y表示x为正例的概率,1-y为x为反例的概率,则\frac{y}{1-y}称为“几率”,\ln{\frac{y}{1-y}}为“对数几率

上一篇 下一篇

猜你喜欢

热点阅读