激活函数 Sigmoid vs. ReLU
2016-08-26 本文已影响347人
马尔克ov
激活函数 Sigmoid vs. ReLU
激活函数 Sigmoid vs. ReLU
用sigmoid做激活函数有缺点,输出在0到1之间。
训练很多层网络时,相乘导致接近0,前面几层训练不到
激活函数 Sigmoid vs. ReLU
ReLU解决vanishing问题
但是某些节点等于0是不是问题呢,有些weight会训练不到?
节点等于0的前提是输出都等于0,这个实际上很少出现