CS231N 学习笔记 Lecture_3 & 4 损失函数和优

2018-01-06  本文已影响0人  best___me

视频在b站上有

线性分类器:定义一个loss函数,然后做optimization----使得loss最小。在W空间中搜索最佳的W

A loss function tells how good our current classifier is.

多分类SVM:

对所有类别进行总和,除了正确的类别Yi。公式中,如果正确的分类比错误的分类大(在一个安全区域内,设置为1),那么loss为0

比如说有一个W使得loss为0,也会有其他的W使得loss为0,即其不唯一。比如2W也使得loss为0

Regularization用于防止过拟合

常见的Regularization方法:

最常用的是L2(也称为weight decay),L2正则化是在惩罚欧几里得的规范。加正则化项是迫使模型倾向于简单的模型

Softmax Classifier:

Optimization

第一种方法:random search,随机初始化W,然后挑选loss最小的

第二种:梯度下降

gradient check:http://blog.csdn.net/lanchunhui/article/details/51279293

计算整个数据集上的loss会很慢,所以使用minibatch,Stochastic Gradient Descent(SGD)随机梯度下降

Numerical gradient:每次用一个很小的值更新W,然后计算loss值,接着估计gradient

Analytic gradient:求偏导数

在神经网络之前的方法,取特征然后进行分类,常见的特征1. 颜色,各个颜色的多少  2.  边缘信息 Histogram of Oriented Gradients方向直方图 3. bag of words

BP:

从节点之后传递回来的梯度乘以local的梯度,再反向传递回去。

加法相当于将梯度分配给之前的每个节点,都相同。max相当于路由,只传递给较大的那一个节点。乘法相当于梯度switcher,转换器吧,收到其他节点输入值的影响。

分支的反向传回来的梯度相加

Neural Network:

对于之前的线性方程f=Wx,进行修改f=W2max(0, W1x) W1相当于去学习一些模版,W2是这些模版的加权

上一篇 下一篇

猜你喜欢

热点阅读