深度学习

循环神经网络13-编码器-解码器架构

2025-11-11  本文已影响0人  R7_Perfect

一、编码器-解码器架构概述

在许多实际应用中(例如机器翻译),我们的输入和输出都是长度可变的序列。传统的神经网络难以直接处理这种变长输入输出问题。编码器-解码器(Encoder-Decoder)架构正是为此而设计的。它由两个主要组件构成:

举个简单例子,对于英语到法语的机器翻译,输入序列可能是:

编码器将这个序列编码为一个固定的状态 s(可以理解为一个向量),表示为:

其中,f 表示编码器内部的映射函数。然后,解码器基于这个状态 s,逐个生成输出词元,得到翻译后的序列:

二、编码器

编码器的核心任务是将输入序列转换为一个固定形状的编码状态。假设输入序列为


b88c7fc4-78c8-4390-ab72-12c776dcafca.png

那么编码器可以看作是一个函数 f,输出一个状态向量


97a58070-8e4e-406f-9d9a-a31d5f3f2ea0.png
在深度学习中,常用循环神经网络(RNN)、长短时记忆网络(LSTM)或门控循环单元(GRU)来实现编码器,因为它们能够处理序列数据。
下面是一个基于 PyTorch 框架的编码器接口示例代码:
class Encoder(nn.Module):
    """编码器-解码器架构的基本编码器接口"""

    def __init__(self, **kwargs):
        super(Encoder, self).__init__(**kwargs)

    def forward(self, X, *args):
        # X 为输入序列(长度可变)
        # 此处应实现编码逻辑,将 X 转换为固定形状的编码状态
        raise NotImplementedError

在这个接口中,任何继承 Encoder 的模型都需要实现 forward 方法。数学上可以认为这个过程为:


97a58070-8e4e-406f-9d9a-a31d5f3f2ea0.png

三、解码器

解码器负责将固定形状的编码状态转换为长度可变的输出序列。其核心在于:

例如,在序列生成过程中,我们可以在时间步 t 用下面两个公式描述状态更新与输出生成:


51762b14-bd49-4e2d-9731-19fac9f7e32f.png

其中:


662d288b-5d21-4d78-8c6a-1942cf429362.png
下面给出一个 PyTorch 实现的解码器接口示例代码:
class Decoder(nn.Module):
    """编码器-解码器架构的基本解码器接口"""

    def __init__(self, **kwargs):
        super(Decoder, self).__init__(**kwargs)

    def init_state(self, enc_outputs, *args):
        raise NotImplementedError

    def forward(self, X, state):
        raise NotImplementedError

四、合并编码器和解码器

编码器与解码器虽然是两个独立的组件,但在整个序列转换模型中必须协同工作。整体流程如下:

  1. 编码阶段:输入序列 XXX 经过编码器处理,生成编码输出 enc_outputs。
  2. 状态初始化:将 enc_outputs 通过解码器的 init_state 方法转换为初始解码状态 dec_state。
  3. 解码阶段:解码器根据输入(如目标序列的部分信息)和 dec_state 逐步生成输出序列。

整个过程可以用下面的公式来描述:


53fd8142-c063-47ed-b57d-97f0425eb7de.png

下面是一个整合编码器和解码器的 PyTorch 接口示例代码:

class EncoderDecoder(nn.Module):
    """编码器-解码器架构的基类"""

    def __init__(self, encoder, decoder, **kwargs):
        super(EncoderDecoder, self).__init__(**kwargs)
        self.encoder = encoder
        self.decoder = decoder

    def forward(self, enc_X, dec_X, *args):
        # enc_X:输入序列
        # dec_X:解码器接收的输入(例如目标序列的部分)
        enc_outputs = self.encoder(enc_X, *args)
        dec_state = self.decoder.init_state(enc_outputs, *args)
        return self.decoder(dec_X, dec_state)

五、小结

本文介绍了编码器-解码器架构,这种架构在处理序列转换问题(如机器翻译)中具有广泛的应用。主要内容回顾如下:

这种架构不仅为后续更复杂的循环神经网络(例如带注意力机制的模型)奠定了基础,也为实现机器翻译等任务提供了清晰的模块化设计思路。希望通过本文的讲解,大家能对深度学习中的序列转换模型有更直观的理解,并尝试阅读和实现相关代码。

上一篇 下一篇

猜你喜欢

热点阅读