Transformer(编解码架构)-Question

2020-11-18  本文已影响0人  魏鹏飞

1. Transformer 模型架构说一下?

2. Transformer 结构, BERT有几种Embedding编码,分词方法?

3. 讲下attention在seq2seq中的用法,transformer中的self-attention。

4. 介绍一下self-attention,self-attention怎么做?

softmax(QK^T)*V

5. local attention和global attention的区别。

global attention和local attention的区别:whether the “attention”is placed on all source positions or on only a few source positions。

Global Attention 和 Local Attention 各有优劣,实际中 Global 的用的更多一点,因为:

6. 询问对生成模型的了解,发展情况,询问项目中的难点,回答解码策略,谈到了 Beam Search 和 Random Sample 策略。

生成模型:

训练时Scheduled Sampling:
掷色子选择是使用Teacher Forcing(From reference)还是使用Distribution Input(from model)

Decoding Algorithm->Greedy:

Decoding Algorithm->Beam Search:

Decoding Algorithm->Random Sample:

7. Probability Distribution

8. 谈谈Transformer、BERT、GPT、GPT2

Transformer:

BERT:(双向二阶段预训练模型-word-piece)

GPT:(单向二阶段预训练模型byte-pair encoding,BPE)

GPT2:(单向通用模型Byte Pair Encoding,BPE)

上一篇 下一篇

猜你喜欢

热点阅读