GLU

2019-08-05  本文已影响0人  茶豚

GLU : Gated Linear Units

公式:h(X)=(X∗W+b)⊗σ(X∗V+c)

输入X,W, b, V, c是学到的参数

把sigmoid(X*V+c) 和 X*W+b对应相乘

出自论文:Language Modeling with Gated Convolutional Networks

https://arxiv.org/abs/1612.08083v1

GLU用在CNN中,论文显示效果比LSTM好

GLU

PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标,PPL=n可以直观地理解为,在模型生成一句话时下一个词有n个合理的选择,可选词数越少,我们认为模型越准确。这样也能解释,为什么PPL越小,模型越好

Results

论文模型结构如下,详细内容见论文

model architecture
上一篇下一篇

猜你喜欢

热点阅读