李宏毅机器学习:Transformer

2021-08-09  本文已影响0人  jenye_

Transformer: Sequence-to-sequence(Seq2sq)

input a sequence, output a sequence




Seq2seq for Syntactic Parsing (文法分析)


Grammar as a Foreign Language

Seq2seq for Multi-laber Classification

Multi-class : 从多个class中选择一个
Multi-laber:一个object可以属于多个class


Seq2seq for Object Detection


Seq2Seq

最早的Seq2Seq


现在的Seq2Seq


Encoder

Transformer 总体来说是用到了Self-attention:


实际上的过程会复杂一些:


实际上这个Encoder的设计也不是最好的:

Decoder


其实Decoder并没有特别大的差别(如果不看中间灰色部分的话)


Masked Self-attention?

Why masked?

在Decoder运作的时候,输出是一个一个产生的,所以没有办法考虑后续的信息。

上一篇 下一篇

猜你喜欢

热点阅读