线性回归模型

2020-04-21  本文已影响0人  612twilight

DataWhale 组对学习活动笔记

本笔记源于Datawhale组对学习活动的任务笔记,也作为我对以前知识的回顾和整理。
线性回归模型首先是一个回归模型,他解决的是回归任务,所以首先介绍一下回归任务。回归任务和分类任务的主要区别在于输出的变量的取值是否为连续值,如果是连续值,则为回归任务,否则可以认为是分类任务。同时因为回归任务的输出变量是连续值,所以其输入变量也必然应该是连续值,否则无法建立有效的映射关系,在李航的《统计学习方法》里面有过如下描述:

输入变量与输出变量均为连续变量的预测问题是回归问题;
输出变量为有限个离散变量的预测问题成为分类问题;
输入变量与输出变量均为变量序列的预测问题成为标注问题。

而线性回归模型是利用了线性函数去拟合输入和输出之间的映射。

线性回归模型的一般形式

假设有如下数据集(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})...(x^{(n)},y^{(n)}),其中x^{(i)}是一组d维特征,有x^{(i)}=(x^{(i)}_1,x^{(i)}_2,x^{(i)}_3...x^{(i)}_d),每个特征都是连续取值的变量。而y^{(i)}是一个连续取值的实数变量。
线性回归模型的目的是为了找到一组权重\theta =(\theta_0,\theta_1,\theta_2,\theta_3...\theta_d),构造一个预测值
\hat y^{(i)}=h_{\theta}(x^{(i)})= \theta_0+\theta_1x^{(i)}_1+\theta_2x^{(i)}_2+\theta_3x^{(i)}_3...\theta_dx^{(i)}_d
使得对于数据集中的所有样本的损失函数之和最小。
这里的损失函数一般用均方误差损失函数。
那我们的目标损失函数就是:
J(\theta)=\frac{1}{2}\sum^n_{i=0}(h_{\theta}(x^{(i)})- y^{(i)})^2
我们的目标是找到一组权重\theta,使让均方误差最小化。

概率角度的诠释

为什么选择均方误差呢?这里可以从极大似然估计的角度去诠释。
我们可以将目标值和变量写成如下形式:
y^{(i)}=h_{\theta}(x^{(i)})+\epsilon^{(i)}
\epsilon表示我们未观测到的变量的印象,即随机噪音。我们假定\epsilon是独立同分布,且服从高斯分布。(根据中心极限定理)
p({\epsilon ^{(i)}}) = \frac{1}{{\sqrt {2\pi \sigma } }}\exp ( - \frac{{{{({\epsilon ^{(i)}})}^2}}}{{2{\sigma ^2}}})
因此:
p({y^{(i)}}|{x^{(i)}},{\theta}) = \frac{1}{{\sqrt {2\pi \sigma } }}\exp ( - \frac{{{{({y^{(i)}} - {h_\theta }({x^{(i)}}))}^2}}}{{2{\sigma ^2}}})
我们建立极大似然函数,即描述数据遵从当前样本分布的概率分布函数。由于样本的数据集独立同分布,因此可以写成:
L(\theta ) = \prod\limits_{i = 1}^n {p({y^{(i)}}|{x^{(i)}},\theta )} = \prod\limits_{i = 1}^n {\frac{1}{{\sqrt {2\pi \sigma } }}\exp ( - \frac{{{{({y^{(i)}} - {h_\theta }({x^{(i)}}))}^2}}}{{2{\sigma ^2}}})}
选择\theta使得似然函数最大化,这就是极大似然估计的思想。
为了方便计算,通常取对数似然函数:
l(\theta ) = \log L(\theta ) = \sum\limits_{i = 0}^n {\log (\frac{1}{{\sqrt {2\pi \sigma } }}\exp ( - \frac{{{{({y^{(i)}} - {h_\theta }({x^{(i)}}))}^2}}}{{2{\sigma ^2}}}))} = n\log (\frac{1}{{\sqrt {2\pi \sigma } }}) - \frac{1}{{2{\sigma ^2}}}\sum\limits_{i = 0}^n {{{({y^{(i)}} - {h_\theta }({x^{(i)}}))}^2}}

参考资料

Task1 Linear_regression.ipynb

上一篇 下一篇

猜你喜欢

热点阅读