散文心理想法

注意力机制和transformer

2022-02-26  本文已影响0人  Cache_wood

@[toc]

非参注意力池化层

参数化的注意力机制

注意力分数

拓展到高维度
Additive Attention
Scaled Dot-Product Attention
总结

使用注意力机制的seq2seq

动机

加入注意力 Encoder
总结

自注意力机制

自注意力
跟CNN,RNN对比
CNN RNN 自注意力
计算复杂度 O(knd^2) O(nd^2) O(n^2d)
并行度 O(n) O(1) O(n)
最常路径 O(n/k) O(n) O(1)
位置编码
位置编码矩阵
相对位置信息

[cos(\delta w_j) \quad sin(\delta w_j)\\ -sin(\delta w_j) \quad cos(\delta w_j)][p_{i,2j}, p_{i+\delta,2j+1}]\\ 投影矩阵,跟i无关

总结

transformer

Transformer架构
多头注意力
有掩码的多头注意力
基于位置的前馈网络
层归一化
信息传递
预测
总结
上一篇下一篇

猜你喜欢

热点阅读