李宏毅深度学习——卷积神经网络
2022-05-28 本文已影响0人
migugu
卷积神经网络CNN
CNN在图像处理中的应用
- 图像分类:
- input:像素矩阵
- output:输出类别的向量
大部分pattern比整张图片要小
CNN的架构
Convolution
卷积计算:将卷积核与像素矩阵进行内积计算,侦测pattern
stride:移动步长
不同的filter识别不同的模式,经过卷积运算得到特征图,缩小图片尺寸,增加维度。
**每个filter都会对所有层的内积求和 **
Max Pooling
减小参数量,便于计算。
特征图大小计算
CNN学到了什么
每一个filter的工作就是detain某一张pattern。比如说:第三图detain斜的线条,第四图是detain短的直线条,等等。每一个filter所做的事情就是detain不同角度的线条,如果今天input有不同角度的线条,你就会让某一个activation function,某一个filter的output值最大。
CNN的应用
有image该有的特性,“见微知著”
- 围棋
- 棋盘matrix, 同样的pattern会出现在不同的regions,而他们代表的是同样的意义,在围棋上可能也会有同样的现象。
- subsampling? AplhaGo没有Max Pooling
-
在“AlphaGo”Paper的附录里面,描述了neuron network structure,它的input是一个19 *19 *48的image。19 *1是可以理解,因为棋盘就是19 *19。48是咋样来的呢?对于“AlphaGo”来说,它把每一个位置都用48个value来描述。这里面的value包括:我们只要在一个位置来描述有没有白子,有没有黑子;还加上了domain-knowledge(不只是说:有没有黑子或者白子,还会看这个位置是不是出于没“气”的状态,等等)
- 语音
- Spectrogr am:Time-Frequency
- 文本
- word->vector
为什么要“深度”网络
- 语音
- input->acoustic feature, output->state
- 深度学习之前:
- HNN-GNN