李宏毅深度学习——卷积神经网络

2022-05-28 本文已影响0人 migugu

卷积神经网络CNN

CNN在图像处理中的应用

图像分类：
- input：像素矩阵
- output：输出类别的向量

大部分pattern比整张图片要小

CNN的架构

Convolution

卷积计算：将卷积核与像素矩阵进行内积计算，侦测pattern

stride：移动步长

不同的filter识别不同的模式，经过卷积运算得到特征图，缩小图片尺寸，增加维度。

**每个filter都会对所有层的内积求和 **

Max Pooling

减小参数量，便于计算。

特征图大小计算

CNN学到了什么

每一个filter的工作就是detain某一张pattern。比如说：第三图detain斜的线条，第四图是detain短的直线条，等等。每一个filter所做的事情就是detain不同角度的线条，如果今天input有不同角度的线条，你就会让某一个activation function，某一个filter的output值最大。

CNN的应用

有image该有的特性，“见微知著”

围棋
- 棋盘matrix, 同样的pattern会出现在不同的regions，而他们代表的是同样的意义，在围棋上可能也会有同样的现象。
- subsampling? AplhaGo没有Max Pooling
- 在“AlphaGo”Paper的附录里面，描述了neuron network structure，它的input是一个19 *19 *48的image。19 *1是可以理解，因为棋盘就是19 *19。48是咋样来的呢？对于“AlphaGo”来说，它把每一个位置都用48个value来描述。这里面的value包括：我们只要在一个位置来描述有没有白子，有没有黑子；还加上了domain-knowledge(不只是说：有没有黑子或者白子，还会看这个位置是不是出于没“气”的状态，等等)
语音
- Spectrogr am：Time-Frequency
文本
- word->vector

为什么要“深度”网络

语音
- input->acoustic feature, output->state
- 深度学习之前：
  1. HNN-GNN