2.1线性神经网络

2021-04-25  本文已影响0人  纵春水东流

1. 线性回归模型

1.1 模型
单样本:\hat{y} = w_1 x_1 + ... + w_d x_d + b#w_{1-d},b为参数,x_{1-d}为样本特征
样本集:{\hat{y}} = {X} {w} + b#X形状为[n,d],n个d个特征样本集合

损失函数l^{(i)}(w, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.
最佳参数:{w}^*, b^* = \operatorname*{argmin}_{{w}, b}\ L({w}, b).#最佳参数为损失函数最小值时的参数

1.2参数的解法
解析解: {w}^* = ( X^\top X)^{-1} X^\top {y}.
梯度下降: ({w},b)\leftarrow ({w},b) - \frac{\eta}{|{B}|} \sum_{i \in{B}} \partial_{({w},b)} l^{(i)}({w},b).

1.3平方损失的由来
假设:x属于正态分布、y也属于正态分布
p(x) = \frac{1}{\sqrt{2 \pi\sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (x - \mu)^2\right).#x分布
y = {w}^\top \mathbf{x} + b + \epsilon \text{ where } \epsilon \sim \mathcal{N}(0, \sigma^2).#y分布
P(y \mid{x}) = \frac{1}{\sqrt{2 \pi\sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (y -{w}^\top{x} - b)^2\right).#样本概率
给定参数w,b样本集的概率,其概率最大时的参数就是所需要的解
样本集概率:P(y \mid X) = \prod_{i=1}^{n} p(y^{(i)}|{x}^{(i)}).
概率最大时的解:\operatorname*{argmax}_{{w}, b}P(y \mid X) =\operatorname*{argmax}_{{w}, b} \prod_{i=1}^{n} p(y^{(i)}|{x}^{(i)}).
等价解:\operatorname*{argmin}_{{w}, b}-\log P(y \mid X) = \operatorname*{argmin}_{{w}, b}\sum_{i=1}^n \frac{1}{2} \log(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} \left(y^{(i)} - {w}^\top {x}^{(i)} - b\right)^2.
等价解: \operatorname*{argmin}_{{w}, b} -\log P(y \mid X) = \operatorname*{argmin}_{{w}, b}\frac{1}{2 } \left(y^{(i)} - {w}^\top {x}^{(i)} - b\right)^2.#即平方损失函数最小值

2. softmax 回归

2.1模型


x \in \{x_1,x_2,...,x_d\}
y \in \{(1, 0, 0), (0, 1, 0), (0, 0, 1)\}.

\begin{split}\begin{aligned} o_1 &= x_1 w_{11} + x_2 w_{12} + x_3 w_{13} + x_4 w_{14} + b_1,\\ o_2 &= x_1 w_{21} + x_2 w_{22} + x_3 w_{23} + x_4 w_{24} + b_2,\\ o_3 &= x_1 w_{31} + x_2 w_{32} + x_3 w_{33} + x_4 w_{34} + b_3. \end{aligned}\end{split}
\hat{{y}} = {softmax}({o})\quad \text{where}\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}.#使得o_1 \space o_2 \space o_3转化后的值非负,和为1,符合概率

单样本:{o} = {W} {x} + {b}
样本集:{O} = {W} {X} + {b}
输出:\hat{{Y}} ={softmax}(\mathbf{O})
分类:\operatorname*{argmax}_j \hat y_j = \operatorname*{argmax}_j o_j.#即选择概率最大的那个类

2.2损失函数:
与线性模型相同,最大化概率P(Y|X)时的参数w,b即为解
P(y^{(i)}|x^{(i)}) = \frac{\exp(o_j)}{\sum_{k} \exp(o_k)}
\operatorname*{argmax}_{{w}, b}P({Y} \mid{X}) = \operatorname*{argmax}_{{w}, b}\prod_{i=1}^n P({y}^{(i)} \mid{x}^{(i)}).
等价:\operatorname*{argmin }_{{w}, b}-\log P(\mathbf{Y} \mid \mathbf{X}) = \operatorname*{argmin }_{{w}, b}\sum_{i=1}^n -\log P({y}^{(i)} \mid \mathbf{x}^{(i)}) = \operatorname*{argmin }_{{w}, b}\sum_{i=1}^n l({y}^{(i)}, \hat{{y}}^{(i)}),
交叉熵:l({y}, \hat{{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j.

2.3softmax 与微分
展开:\begin{split}\begin{aligned} l(\mathbf{y}, \hat{\mathbf{y}}) &= - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\ &= \sum_{j=1}^q y_j \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j\\ &= \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j. \end{aligned}\end{split}

对预测值进行偏微分:\partial_{o_j} l(\mathbf{y}, \hat{\mathbf{y}}) = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} - y_j = \mathrm{softmax}(\mathbf{o})_j - y_j.
偏微分可以区分出这个模型对不同预测值的概率

2.3交叉熵
熵:H[P] = \sum_j - P(j) \log P(j).
交叉熵:H(P,Q),即给定条件Q下P事件的信息量

上一篇下一篇

猜你喜欢

热点阅读