[Kaiming]Delving Deep into Recti
2020-04-23 本文已影响0人
馒头and花卷
@article{he2015delving,
title={Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification},
author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
pages={1026--1034},
year={2015}}
概
本文介绍了一种PReLU的激活函数和Kaiming的参数初始化方法.
主要内容
PReLU
其中是作为网络的参数进行训练的.
等价于
特别的, 可以一层的节点都用同一个.
Kaiming 初始化
Forward case
在卷积层中时, 是
的展开, 故
, 而
,
(每一行都可以视作一个kernel), 并记
.
则
假设与
(注意没粗体, 表示
中的某个元素)相互独立, 且
采样自一个均值为0的对称分布之中.
则
除非,
, 但对于ReLu, 或者 PReLU来说这个性质是不成立的.
如果我们令, 易证
其中是ReLU, 若
是PReLU,
下面用ReLU分析, PReLU是类似的.
故
自然我们希望
Backward case
表示损失函数观念与
的导数, 这里的
与之前提到的
有出入, 这里需要用到卷积的梯度回传, 三言两语讲不清,
是
的一个重排.
因为, 所以
假设与
相互独立, 所以
若为ReLU:
若为PReLU:
下面以为ReLU为例, PReLU类似
这里为
的长度.
和前向的一样, 我们希望一样, 需要
是实际中,我们前向后向可以任选一个(因为误差不会累积).