机器学习与深度学习

[网络层]什么是 BatchNormal

2021-03-18  本文已影响0人  LCG22

1、什么是批正则化(BatchNormal)

对输入的批数据进行归一化,映射到均值为 0 ,方差为 1 的正态分布。同时因为将输入数据都映射到了原点周围,会导致激活函数表达能力变差,所以又引入了缩放和平移,计算公式如下:

2、为什么要引入批正则化

因为每一批的数据的数据分布会有差别,为了能够使每一批的数据分布相同,所以才要进行批归一化

3、批正则化的优点

能够使得每批的数据分布一致,同时能够避免梯度消失。例如对于 sigmoid 来说,sigmoid 的梯度分布图为一个倒 U 型,且在 x 取值为 0 时的梯度最大,而批正则化操作恰好可以让 x 的值大部分都分布在 0 附近

4、批正则化的缺点

① 当批的大小较小时,计算得到的均值和方差不准确,使归一化的效果变差,导致模型的性能下降

② 当批的大小较大时,内存可能不足

5、批正则化的具体计算过程

BN:批量归一化,往batch方向做归一化,归一化维度是[N,H,W]

LN:层次归一化,往channel方向做归一化,归一化维度为[C,H,W]

IN:实例归一化,只在一个channel内做归一化,归一化维度为[H,W]

GN:介于LN和IN之间,在channel方向分group来做归一化,归一化的维度为[C//G , H, W]

6、pytorch 的 BatchNorm2d 作用和参数详解

官网链接:https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html

接口:torch.nn.BatchNorm2d(num_featureseps=1e05momentum=0.1affine=True

track_running_stats=True)

1.num_features:一般输入参数为batch_size*num_features*height*width,即为其中特征的数量

2.eps:分母中添加的一个值,目的是为了计算的稳定性,默认为:1e-5

3.momentum:一个用于运行过程中均值和方差的一个估计参数(我的理解是一个稳定系数,类似于SGD中的momentum的系数)

4.affine:当设为true时,会给定可以学习的系数矩阵gamma和beta

5.track_running_stats:由于在测试阶段,存在输入单样本或少量样本的情况,为了避免使用批正则化操作而导致归一化的效果差的问题,此时如果 track_running_stats=True,则不会进行批正则化,而是使用指定的均值和方差来进行计算,如果 track_running_stats=False,则仍会使用批正则化

例子:

import torch

input_tensor = torch.randn([2, 4, 5, 3])

batch_norm = torch.nn.BatchNorm2d(num_features=4)

result = batch_norm(input_tensor)

print(result.shape)

print(result)

部分结果:

torch.Size([2, 4, 5, 3])

tensor([[[[ 0.2061, -0.2501,  0.0601],

          [-0.5218, -1.0619, -1.4185],

          [ 0.1908,  1.2295, -0.7729],

          [-0.6448, -1.3476,  1.2012],

          [ 0.5188,  1.2980, -1.4802]],

        [[ 1.0705, -1.8748,  0.3279],

          [-0.2957,  2.0822, -0.8830],

          [ 0.3909,  1.2703, -1.8282],

          [ 1.4113, -0.6184,  0.7101],

          [-1.1876, -1.4167,  0.0765]],

        [[ 1.0806,  1.4385, -1.7109],

          [ 1.0923, -0.7254, -1.5689],

          [-0.0218, -0.4633, -0.0800],

          [-1.2303, -0.4087,  1.2155],

          [ 0.5398,  0.3635, -1.3078]],

上一篇 下一篇

猜你喜欢

热点阅读