GLU

2019-08-05 本文已影响0人茶豚

GLU : Gated Linear Units

公式：h(X)=(X∗W+b)⊗σ(X∗V+c)

输入X，W, b, V, c是学到的参数

把sigmoid(X*V+c) 和 X*W+b对应相乘

出自论文：Language Modeling with Gated Convolutional Networks

https://arxiv.org/abs/1612.08083v1

GLU用在CNN中，论文显示效果比LSTM好

GLU

PPL是用在自然语言处理领域（NLP）中，衡量语言模型好坏的指标，PPL=n可以直观地理解为，在模型生成一句话时下一个词有n个合理的选择，可选词数越少，我们认为模型越准确。这样也能解释，为什么PPL越小，模型越好

Results

论文模型结构如下，详细内容见论文

model architecture