bert的trick理解-gelu损失函数

2021-01-14  本文已影响0人  张知道q

GELU 激活函数

损失函数详解:https://mp.weixin.qq.com/s/pA9JW75p9J5e5KHe3ifcBQ

参考链接:https://blog.csdn.net/liruihongbob/article/details/86510622

原理上其实就是GELUs正是在激活中引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识,同时实验效果要比Relus与ELUs都要好。

gelu的损失函数图:

上一篇下一篇

猜你喜欢

热点阅读