Tensorflow Batch normalization函数

2018-10-25 本文已影响0人 huim

小白刚接触BN层的时候简直是一头雾水，在大坑里摸索了很久，终于！！！有了一点觉悟，必须要马克下来啊~~~

BN使用要注意：1.一般在卷积层使用，2.一般在非线性激活之前使用，3.在训练和测试的时候，用法不一样啊！

BN原理：深度网络中间每一层的输入来源于上一层的输出，每次更新参数之后，输入数据的分布会产生变化，因此需要重新调整分布。重新调整分布以适应新的分布，会出现covariate shift的问题，通常需要通过domin adaptation来处理，但是covariate shift会随着网络层数的增加而扩展到这一层之外的其他地方，出现更大的偏移。如果保持输入的分布不变，参数就不必根据输入的偏移重新调整以补偿其偏差，因此能有效的加速训练。

BN 就是用来做标准化处理，调整分布，使结果满足均值为0，方差为1，可以加速网络收敛。

Tensorflow中实现BN算法的各种函数

在tensorflow中给出了几种实现batch-norm的方法:
1.tf.nn.batch_normalization 是一个低级的操作函数，调用者需要自己处理张量的平均值和方差。
2.tf.nn.fused_batch_norm是另一个低级的操作函数，和前者十分相似。不同之处在于它针对四维输入张量进行了优化，这是卷积神经网络中的常见情况。而前者tf.nn.batch_normalization则接受任何等级大于1的张量。
3.tf.layers.batch_normalization 是对先前操作的高级包装。最大的不同在于它负责创建和管理运行张量的均值和方差，并尽可能地调用快速融合运算。通常，这个函数应该是你的默认选择。
4.tf.contrib.layers.batch_norm是 batch norm 的早期实现，其升级的核心API版本为（tf.layers.batch_normalization）。不推荐使用它，因为它可能会在未来的版本中丢失。
5.tf.nn.batch_norm_with_global_normalization是另一个被弃用的操作，现在这个函数会委托给tf.nn.batch_normalization执行，在未来这个函数会被放弃。
6.keras.layers.BatchNormalization 是BN算法的Keras实现，这个函数在后端会调用Tensorflow中的tf.nn.batch_normalization函数。

函数1 `tf.nn.batch_normalization` 的使用

先上一个简单的例子，方便理解tf.nn.moments()和tf.nn.batch_normalization()的使用。
tf.nn.moments()返回计算得到的均值和方差tensor,
tf.nn.batch_normalization()返回BN结果。

# image shape:[batch_size,width,height,channel]
img_shape = [128, 32, 32, 64]
Wx_plus_b = tf.Variable(tf.random_normal(img_shape))
# axis 是需要归一化处理的维度[0,1,2]对应小批量图片的[batch_size,width,height]
axis = list(range(len(img_shape) - 1))

wb_mean, wb_var = tf.nn.moments(Wx_plus_b, axis)

# scale和offset的维度是[channel]
scale = tf.Variable(tf.ones([64]))
offset = tf.Variable(tf.zeros([64]))

# epsilon是自定义的一个很小的值，为了防止出现 0
variance_epsilon = 0.001
Wx_plus_b = tf.nn.batch_normalization(Wx_plus_b, wb_mean, wb_var, offset, scale, variance_epsilon)

# 手动实现BN
Wx_plus_b1 = (Wx_plus_b - wb_mean) / tf.sqrt(wb_var + variance_epsilon)
Wx_plus_b1 = Wx_plus_b1 * scale + offset

结果维度是[channel]，每一维对应batch_size*w*h这么多数据的均值和方差（对图右侧虚线框中所有元素求均值和方差）

另一个例子，帮助理解BN在训练和测试时的不同使用方式。
在训练时，通过滑动平均值来计算每个batch_size的统计量（均值和方差）。
在测试时，直接使用训练过程中保存的均值和方差。
tf.cond(is_true,f1,f2)如果is_true=True，则执行函数f1，否则执行函数f2。
tf.control_dependencies()创建函数之间的依赖关系。

def batch_norm(x, name_scope, training, epsilon=1e-3, decay=0.99):
""" Assume 2d [batch, values] tensor"""
with tf.variable_scope(name_scope):
    size = x.get_shape().as_list()[1]
    scale = tf.get_variable('scale', [size], initializer=tf.constant_initializer(0.1))
    offset = tf.get_variable('offset', [size])

    pop_mean = tf.get_variable('pop_mean', [size], initializer=tf.zeros_initializer(), trainable=False)
    pop_var = tf.get_variable('pop_var', [size], initializer=tf.ones_initializer(), trainable=False)
    batch_mean, batch_var = tf.nn.moments(x, [0])
    train_mean_op = tf.assign(pop_mean, pop_mean*decay+batch_mean*(1-decay))
    train_var_op = tf.assign(pop_var, pop_var*decay + batch_var*(1-decay))

    def batch_statistics():
        with tf.control_dependencies([train_mean_op, train_var_op]):
            return tf.nn.batch_normalization(x, batch_mean, batch_var, offset, scale, epsilon)

    def population_statistics():
        return tf.nn.batch_normalization(x, pop_mean, pop_var, offset, scale, epsilon)

    return tf.cond(training, batch_statistics, population_statistics)

  # 操作op2依赖op1，
  tf.control_dependencies([op1]):
        op2

函数3 `tf.layers.batch_normalization` 的使用

tf.layers.batch_normalization()一行搞定！！！超好用！！！！！
BN使用要注意：1.一般在卷积层使用，2.一般在非线性激活之前使用，3.在训练时training=True, 在测试时training=False。
注意：1.设training为一个feed的布尔值变量，在训练和测试时feed不同的值。
2.在训练时，要把计算得到的均值和方差保存下来，方便测试时使用。

with tf.variable_scope('layer1-conv1'):
    conv1_w = tf.get_variable('weight', [3, 3, 1, 32], initializer=tf.truncated_normal_initializer(stddev=0.1))
    conv1_b = tf.get_variable('bias', [32], initializer=tf.constant_initializer(0.0))
    conv1 = tf.nn.conv2d(input_tensor, conv1_w, strides=[1, 1, 1, 1],padding='SAME')
    
    # 卷积操作
    res1 = tf.nn.bias_add(conv1, conv1_b)
    # BN的输入是卷积结果，训练时training=True
    bn1 = tf.layers.batch_normalization(res1, training=is_train)
    # BN后再进行非线性激活
    relu1 = tf.nn.relu(bn1)

!!! 训练过程 !!!

with tf.name_scope('train_op'):
    update_ops = tf.get_collection(tf.GraphKeys.UPDATES_OPS)
    with tf.control_dependencies(update_ops):
        train_op = tf.train.AdamOptimizer(learning_rate).minimize(loss)

# ....
training = tf.placeholder(tf.bool)
feed_dict = {x:batch_x, y:batch_y, training:True}

!!! 测试 !!!

training = tf.placeholder(tf.bool)
feed_dict = {x:batch_x, y:batch_y, training:False}

参考

Tensorflow Batch normalization函数
 3.1 Tensorflow: 批标准化（Batch Normalization）

Tensorflow Batch normalization函数

Tensorflow中实现BN算法的各种函数

函数1 `tf.nn.batch_normalization` 的使用

函数3 `tf.layers.batch_normalization` 的使用

参考

猜你喜欢

热点阅读

Tensorflow Batch normalization函数

Tensorflow中实现BN算法的各种函数

函数1 tf.nn.batch_normalization 的使用

函数3 tf.layers.batch_normalization 的使用

参考

猜你喜欢

热点阅读

函数1 `tf.nn.batch_normalization` 的使用

函数3 `tf.layers.batch_normalization` 的使用