[网络层]什么是 BatchNormal

2021-03-18 本文已影响0人 LCG22

1、什么是批正则化(BatchNormal)

对输入的批数据进行归一化，映射到均值为 0 ，方差为 1 的正态分布。同时因为将输入数据都映射到了原点周围，会导致激活函数表达能力变差，所以又引入了缩放和平移，计算公式如下：

2、为什么要引入批正则化

因为每一批的数据的数据分布会有差别，为了能够使每一批的数据分布相同，所以才要进行批归一化

3、批正则化的优点

能够使得每批的数据分布一致，同时能够避免梯度消失。例如对于 sigmoid 来说，sigmoid 的梯度分布图为一个倒 U 型，且在 x 取值为 0 时的梯度最大，而批正则化操作恰好可以让 x 的值大部分都分布在 0 附近

4、批正则化的缺点

① 当批的大小较小时，计算得到的均值和方差不准确，使归一化的效果变差，导致模型的性能下降

② 当批的大小较大时，内存可能不足

5、批正则化的具体计算过程

BN：批量归一化，往batch方向做归一化，归一化维度是[N，H，W]

LN：层次归一化，往channel方向做归一化，归一化维度为[C，H，W]

IN：实例归一化，只在一个channel内做归一化，归一化维度为[H，W]

GN：介于LN和IN之间，在channel方向分group来做归一化，归一化的维度为[C//G , H, W]

6、pytorch 的 BatchNorm2d 作用和参数详解

官网链接：https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html

接口：torch.nn.BatchNorm2d(num_features, eps=1e05, momentum=0.1, affine=True,

track_running_stats=True)

1.num_features：一般输入参数为batch_size*num_features*height*width，即为其中特征的数量

2.eps：分母中添加的一个值，目的是为了计算的稳定性，默认为：1e-5

3.momentum：一个用于运行过程中均值和方差的一个估计参数（我的理解是一个稳定系数，类似于SGD中的momentum的系数）

4.affine：当设为true时，会给定可以学习的系数矩阵gamma和beta

5.track_running_stats：由于在测试阶段，存在输入单样本或少量样本的情况，为了避免使用批正则化操作而导致归一化的效果差的问题，此时如果 track_running_stats=True，则不会进行批正则化，而是使用指定的均值和方差来进行计算，如果 track_running_stats=False，则仍会使用批正则化

例子：

import torch

input_tensor = torch.randn([2, 4, 5, 3])

batch_norm = torch.nn.BatchNorm2d(num_features=4)

result = batch_norm(input_tensor)

print(result.shape)

print(result)

部分结果：

torch.Size([2, 4, 5, 3])

tensor([[[[ 0.2061, -0.2501, 0.0601],

[-0.5218, -1.0619, -1.4185],

[ 0.1908, 1.2295, -0.7729],

[-0.6448, -1.3476, 1.2012],

[ 0.5188, 1.2980, -1.4802]],

[[ 1.0705, -1.8748, 0.3279],

[-0.2957, 2.0822, -0.8830],

[ 0.3909, 1.2703, -1.8282],

[ 1.4113, -0.6184, 0.7101],

[-1.1876, -1.4167, 0.0765]],

[[ 1.0806, 1.4385, -1.7109],

[ 1.0923, -0.7254, -1.5689],

[-0.0218, -0.4633, -0.0800],

[-1.2303, -0.4087, 1.2155],

[ 0.5398, 0.3635, -1.3078]],

[网络层]什么是 BatchNormal

猜你喜欢

热点阅读