Pytorch 全流程学习

Pytorch的第二步:(1) torch.nn.functio

2020-12-16  本文已影响0人  夜和大帝

torch.nn.functional 涉及了所有 torch.nn 需要 类 和 方法 ,torch.nn 构建的模块通常就是调用 torch.nn.functional 里的方法实现的,通过学习 torch.nn.functional 能为后期更好学习构建模型打下基础。
下文涉及 tensor 形状描述:
B: batch大小
C:通道数
H:图像数据的高度
W:图像数据的宽度
L:一维数据的长度
下标 i, k, o 分别表示输入、卷积核、输出

1 卷积

1.1 torch.nn.functional.conv1d() 一维卷积

先看看此函数的模样以及各个参数含义:

import torch.nn.functional as F

F.conv1d(input=inputs, weight=kernel, bias=None,
               stride=1, padding=0, dilation=1, groups=1)

参数含义

input:待卷积tensor ,形状为 (B, C_i, L_i)
weight: 卷积权重,也就是卷积核 ,形状为 (C_k, \frac{C_i}{group}, L_k)
stride: 每次核移动的步长,默认为1
padding: 在 input 两端各自补充几个0, 默认为0
dilation: 核膨胀间隔数,默认为1
group: C_i的分组数

详细解释参数含义如下:
input 可以如下图解释:

input形式及形状参数含义

weight 形状如下图所示。
weight参数有限制: [C_k, \frac{C_i}{group}, L_k]里的C_k必须可以被 group 整除 , 且第二项必须是\frac{C_i}{group}
注意!虽然都是三维Tensor ,但是它们各个维度的含义变化了。

卷积核即权重形式

这里有一个难以理解的地方:请注意体会:
我们输入样本是 [B, C_i, L_i] ,权重是 [C_k, \frac{C_i}{group}, L_k],输出形状是 [B, C_o, L_o] ,其中 B 很好理解,因为我们batch 只是一个批量化操作,样本间是没有交互的,所以进来多少样本,各自做完相应操作也就会出去多少样本。这个 L_o 也是不难理解滴,这个 L_o 是与 L_k L_i 都有关的。后面再说。
那我们是怎么把这 C_i 变成C_o的呢。 \frac{C_i}{group}又是怎么回事呢?
因为 weight 只是对batch 里的所有样本做相同操作,所以我们只看 weight 对 input 形势图的其中一层做了什么即可
我们来把上面那两个图放大看看整个卷积流程:

样本

假设我们按照以下参数输入:

inputs = torch.randint(low=0, high=5, size=(2, 4, 5))
kernel = torch.randint(low=0, high=3, size=(2, 2, 2))
bias = torch.randint(low=0, high=3, size=(4,))

out = F.conv1d(input=inputs, weight=kernel, bias=None,
               stride=1, padding=0, dilation=1, groups=2)
卷积流程

从上图我们可以看出,其计算过程是 先按照 group这个参数把 C_k C_i都分成 group 组,然后假设每一组有 m个二维卷积核n个二维样本。
下面两张图则分别演示了 m,n 不同大小的计算过程:

卷积核较多时,所有都对同样数据做操作

总结conv 算法最重要的是 :

  1. input 和 weight 的形状必须符合我面提到的规则
  2. group 这个概念对理解 pytorch 的卷积算法很重要,再重复一遍,它的规则就是把 C_i, C_k 都分成 group 组
    每组得到的 核通道N_k和输入通道N_i一定满足 N_k \geq N_i
    如果N_k = N_i ,那么 该组核通道与输入通道就会一一对应进行卷积
    如果N_k \gt N_i ,比如分组后一组4个核通道,2个输入通道,
    那么该组前2个核通道与第1个输入通道就会各自进行卷积
    那么该组后2个核通道与第2个输入通道就会各自进行卷积
    计算过程示意图

group这个参数的本质就是,卷积后得到的结果,其某个通道的输出,是由输入向量的几个通道构成的。
如果 group ==1 那么意味着要想计算一个通道输出,需要所有的输入通道参与运算
如果 group == C_i 意味着计算一个通道的输出,只需要输入的某一个通道
如果 group 是中间某个值,意味着计算一个通道的输出,需要输入的\frac{C_i}{group}个通道参与运算

上一篇下一篇

猜你喜欢

热点阅读