吴恩达：一种架构，驾驭一切 - Transformer

2021-12-25 本文已影响0人孙庚辛

Transformer 架构正在快速拓展自己的影响范围。

Transformers 架构最初专为自然语言处理所开发，但目前已经成为深度学习领域的“万金油”。2021 年，人们已经在用它发现药物、识别语音和图像等。

Transformers 已经用实际行动证明自己在视觉任务、地震预测、蛋白质分类与合成等领域的优异表现。

过去一年以来，研究人员开始将其推向更广阔的新领域。

TransGAN 是一套生成对抗网络，结合 transformers 以确保所生成的各个像素都与之前已生成的像素一致。这项成果能够有效衡量所生成图像与原始训练数据之间的相似度。

Facebook 的 TImeSformer 使用该架构识别视频片段中的动作元素。它的任务不再是从文本中识别单词序列，而是尝试解释视频帧中的序列关系。其性能优于卷积神经网络，能够在更短时间内分析更长的视频片段，因此能耗也控制在更低水平。

Facebook、谷歌及加州大学伯克利分校的研究人员在文本上训练出 GPT-2，之后冻结了其 self-attention 与 feed-forward 层。在此基础上，他们可以针对不同用例进行模型微调，包括数学、逻辑问题及计算机视觉等。

DeepMind 发布了 AlphaFold 2 的开源版本，其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构。该模型在医学界内掀起轩然大波，人们普遍认为其具备推动药物发现和揭示生物学原理的巨大潜力。

Transformer 于 2017 年首次亮相，之后迅速改变了语言处理模型的设计思路。其 self-attention 机制能够跟踪序列中各元素与其他元素间的关系，不仅可用于分析单词序列，还适合分析像素、视频帧、氨基酸、地震波等序列。

基于 transformer 的大型语言模型已经建立起新的客观标准，包括在大型未标记语料库上进行模型预训练，利用有限数量的标记示例针对特定任务进行微调等。

Transformer 架构良好的普适性，可能预示着未来我们将创造出能解决多领域多问题的 AI 模型。

在深度学习的发展过程中，有几个概念曾经迅速普及：ReLU 激活函数、Adam 优化器、attention 注意力机制，再加上现在的 transformer。

过去一年的发展证明，这种架构确实具有旺盛的生命力。

“星空智能对话研学社”