池化层的实现

2019-08-08 本文已影响0人城市郊区的牧羊人

Pooling层概述

Pooling层是CNN中的重要组成部分，通常用来实现对网络中Feature Map的降维，减少参数数量的同时，为网络后面各个层增加感受野，保留Feature Map的显著特征。Pooling层根据计算方式不同，划分为最大池化层（Max Pooling）、局部平均池化层（Local Mean Pooling）、全局平均池化层（Global Mean Pooling）

Pooling层的输出计算

Pooling层主要的作用是下采样，通过去掉Feature Map中不重要的样本，进一步减少参数数量。Pooling的方法很多，最常用的是Max Pooling。Max Pooling实际上就是在nn的样本中取最大值，作为采样后的样本值。下图是22 Max Pooling：

image
根据上图我们用表示第层的加权输入；用表示第层的加权输入，即层经过Max Pooling计算的输出。我们先来考察一个具体的例子，然后再总结一般性的规律。对于max pooling：

可总结
，，k为Max Pooling的池化核大小

除了Max Pooing之外，常用的还有Mean Pooling——取各样本的平均值。
$net_{1,1}^{l}=\frac{1}{4}(net_{1,1}^{l-1}+net_{1,2}^{l-1}+net_{2,1}^{l-1}+net_{2,2}^{l-1})$ $net_{1,2}^{l}=\frac{1}{4}(net_{1,3}^{l-1}+net_{1,4}^{l-1}+net_{2,3}^{l-1}+net_{2,4}^{l-1})$ $net_{2,1}^{l}=\frac{1}{4}(net_{3,1}^{l-1}+net_{3,2}^{l-1}+net_{4,1}^{l-1}+net_{4,2}^{l-1})$ $net_{2,2}^{l}=\frac{1}{4}(net_{3,3}^{l-1}+net_{3,2}^{l-1}+net_{4,3}^{l-1}+net_{4,4}^{l-1})$

对于深度为D的Feature Map，各层独立做Pooling，因此Pooling后的深度仍然为D。
可总结 $net_{i,j}^{l}=\frac{1}{m*n}\sum_{n=0}^{k-1}\sum_{m=0}^{k-1}(net_{1+(i-1)*stride+m,1+(j-1)*stride+n}^{l-1})$
$m取值0,...k-1$ ， $n取值0,...k-1$ ，k为Max Pooling的池化核大小

Pooling层的训练

无论max Pooling还是Mean Pooling，都没有需要学习的参数。因此，在卷积神经网络的训练中，Pooling层需要做的仅仅是将误差项传递到上一层，而没有参数梯度的计算（因为没有参数需要更新）。

Max Pooling误差项的传递
如下图，假设第 $l-1$ 层大小为 $4*4$ ，Pooling filter大小为 $2*2$ ，步长为2，这样，max Pooling之后，第 $l$ 层大小为 $2*2$ 。假设第 $l$ 层的 $\delta$ 值都已经计算完毕，我们现在的任务是计算第 $l-1$ 层的 $\delta$ 值。

image.png
我们用表示第层的加权输入，用表示第层的加权输入。通过上面那个的例子推导结果，可以看出，只有区块中最大的才会对的值产生影响。假如针对中的最大值为，则上式相当于：
那么，我们可以求得下面几个偏导数：现在，我们发现了规律：对于max pooling，下一层的误差项的值会原封不动的传递到上一层对应区块中的最大值所对应的神经元，而其他神经元的误差项的值都是0。如下图所示(假设、、、为所在区块中的最大输出值)：

image.png
Mean Pooling误差项的传递
同理我们通过上面一个的例子，先来看看是如何影响的，假如针对
同样，我们很容易求得下面几个偏导数：
根据链式求导法则，我们可以进一步算出：

通过上面推导我们发现了规律：对于mean pooling，下一层的误差项的值会平均分配到上一层对应区块中的所有神经元。如下图所示：

image.png

代码实现

Max Pooling的反向传播

void backward_maxpool_layer(const maxpool_layer l, network_state state)
{
    int i;
    int h = l.out_h;
    int w = l.out_w;
    int c = l.c;
    for(i = 0; i < h*w*c*l.batch; ++i){
        int index = l.indexes[i];
        state.delta[index] += l.delta[i];
    }
}

darknet中的平均池化层实现的是global mean pooling，所以没有平均池化核大小、步长等参数。

void backward_avgpool_layer(const avgpool_layer l, network_state state)
{
    int b,i,k;
    for(b = 0; b < l.batch; ++b){
        for(k = 0; k < l.c; ++k){
            int out_index = k + b*l.c;
            for(i = 0; i < l.h*l.w; ++i){
                int in_index = i + l.h*l.w*(k + b*l.c);
                state.delta[in_index] += l.delta[out_index] / (l.h*l.w);
            }
        }
    }
}

参考资料

【1】https://blog.csdn.net/qq_21190081/article/details/72871704
【2】零基础入门深度学习(4) - 卷积神经网络