Pytorch的第二步：(1) torch.nn.functio

2020-12-16 本文已影响0人夜和大帝

torch.nn.functional 涉及了所有 torch.nn 需要类和方法，torch.nn 构建的模块通常就是调用 torch.nn.functional 里的方法实现的，通过学习 torch.nn.functional 能为后期更好学习构建模型打下基础。
下文涉及 tensor 形状描述：
B: batch大小
C：通道数
H：图像数据的高度
W：图像数据的宽度
L：一维数据的长度
下标 $i, k, o$ 分别表示输入、卷积核、输出

1 卷积

1.1 torch.nn.functional.conv1d() 一维卷积

先看看此函数的模样以及各个参数含义：

import torch.nn.functional as F

F.conv1d(input=inputs, weight=kernel, bias=None,
               stride=1, padding=0, dilation=1, groups=1)

参数含义

input：待卷积tensor ，形状为 $(B, C_i, L_i)$
weight: 卷积权重，也就是卷积核，形状为 $（C_k, \frac{C_i}{group}, L_k）$
stride: 每次核移动的步长，默认为1
padding: 在 input 两端各自补充几个0, 默认为0
dilation: 核膨胀间隔数，默认为1
group: $C_i$ 的分组数

详细解释参数含义如下：
input 可以如下图解释：

input形式及形状参数含义

weight 形状如下图所示。
weight参数有限制： $[C_k, \frac{C_i}{group}, L_k]$ 里的 $C_k$ 必须可以被 $group$ 整除 , 且第二项必须是 $\frac{C_i}{group}$ 。
注意！虽然都是三维Tensor ，但是它们各个维度的含义变化了。

卷积核即权重形式

这里有一个难以理解的地方：请注意体会：
我们输入样本是 $[B, C_i, L_i]$ ，权重是 $[C_k, \frac{C_i}{group}, L_k]$ ，输出形状是 $[B, C_o, L_o]$ ，其中 $B$ 很好理解，因为我们batch 只是一个批量化操作，样本间是没有交互的，所以进来多少样本，各自做完相应操作也就会出去多少样本。这个 $L_o$ 也是不难理解滴，这个 $L_o$ 是与 $L_k$ $L_i$ 都有关的。后面再说。
那我们是怎么把这 $C_i$ 变成 $C_o$ 的呢。 $\frac{C_i}{group}$ 又是怎么回事呢？
因为 weight 只是对batch 里的所有样本做相同操作，所以我们只看 weight 对 input 形势图的其中一层做了什么即可
我们来把上面那两个图放大看看整个卷积流程：

样本

假设我们按照以下参数输入：

inputs = torch.randint(low=0, high=5, size=(2, 4, 5))
kernel = torch.randint(low=0, high=3, size=(2, 2, 2))
bias = torch.randint(low=0, high=3, size=(4,))

out = F.conv1d(input=inputs, weight=kernel, bias=None,
               stride=1, padding=0, dilation=1, groups=2)

卷积流程

从上图我们可以看出，其计算过程是先按照 group这个参数把 $C_k$ $C_i$ 都分成 group 组，然后假设每一组有 $m$ 个二维卷积核 $n$ 个二维样本。
下面两张图则分别演示了 $m,n$ 不同大小的计算过程：

卷积核较多时，所有都对同样数据做操作

总结：conv 算法最重要的是 :

input 和 weight 的形状必须符合我面提到的规则
group 这个概念对理解 pytorch 的卷积算法很重要，再重复一遍，它的规则就是把 $C_i, C_k$ 都分成 group 组
每组得到的核通道 $N_k$ 和输入通道 $N_i$ 一定满足 $N_k$ $\geq$ $N_i$
如果 $N_k$ $=$ $N_i$ ，那么该组核通道与输入通道就会一一对应进行卷积
如果 $N_k$ $\gt$ $N_i$ ，比如分组后一组4个核通道，2个输入通道，
那么该组前2个核通道与第1个输入通道就会各自进行卷积
那么该组后2个核通道与第2个输入通道就会各自进行卷积
计算过程示意图

group这个参数的本质就是，卷积后得到的结果，其某个通道的输出，是由输入向量的几个通道构成的。
如果 group ==1 那么意味着要想计算一个通道输出，需要所有的输入通道参与运算
如果 group == $C_i$ 意味着计算一个通道的输出，只需要输入的某一个通道
如果 group 是中间某个值，意味着计算一个通道的输出，需要输入的 $\frac{C_i}{group}$ 个通道参与运算

Pytorch的第二步：(1) torch.nn.functio

1 卷积

1.1 torch.nn.functional.conv1d() 一维卷积

猜你喜欢

热点阅读