CS231N 学习笔记 Lecture_3 & 4 损失函数和优

2018-01-06 本文已影响0人 best___me

视频在b站上有

线性分类器：定义一个loss函数，然后做optimization----使得loss最小。在W空间中搜索最佳的W

A loss function tells how good our current classifier is.

多分类SVM：

对所有类别进行总和，除了正确的类别Yi。公式中，如果正确的分类比错误的分类大（在一个安全区域内，设置为1），那么loss为0

比如说有一个W使得loss为0，也会有其他的W使得loss为0，即其不唯一。比如2W也使得loss为0

Regularization用于防止过拟合

常见的Regularization方法：

最常用的是L2（也称为weight decay），L2正则化是在惩罚欧几里得的规范。加正则化项是迫使模型倾向于简单的模型

Optimization

第一种方法：random search，随机初始化W，然后挑选loss最小的

第二种：梯度下降

计算整个数据集上的loss会很慢，所以使用minibatch，Stochastic Gradient Descent(SGD)随机梯度下降

Numerical gradient：每次用一个很小的值更新W，然后计算loss值，接着估计gradient

Analytic gradient：求偏导数

在神经网络之前的方法，取特征然后进行分类，常见的特征1. 颜色，各个颜色的多少 2. 边缘信息 Histogram of Oriented Gradients方向直方图 3. bag of words

从节点之后传递回来的梯度乘以local的梯度，再反向传递回去。

加法相当于将梯度分配给之前的每个节点，都相同。max相当于路由，只传递给较大的那一个节点。乘法相当于梯度switcher，转换器吧，收到其他节点输入值的影响。

分支的反向传回来的梯度相加

对于之前的线性方程f=Wx，进行修改f=W2max(0, W1x) W1相当于去学习一些模版，W2是这些模版的加权