花书:序列建模和递归网络
2018-11-22 本文已影响26人
PolarBearWYY
花书:序列建模和递归网络
刚刚考完矩阵论,所以又可以继续写简书啦~
花书:序列建模和递归网络
10.1展开计算图
动态系统的经典形式:
s(t) 称为系统的状态举个例子,当 τ=3时:
对有限时间步 τ,τ −1 次应用这个定义可以展开这个图展开的计算图如下:
每个节点表示在某个时刻 t 的状 态,并且函数 f 将 t 处的状态映射到 t + 1 处的状态。所有时间步都使用相同的参数(用于参数 化 f 的相同 θ 值)。考虑由外部信号 x(t) 驱动的动态系统:
当前状态包含了整个过去序列的信息。定义隐藏单元的值。为了表明状态是网络的隐藏单元,我们使用变量 h 代表状态重写式:
典型 RNN 会增加额外的架构特性,如读取状态信息 h 进行预测的输出层:
图 10.2: 没有输出的循环网络。此循环网络只处理来自输入 x 的信息,将其合并到经过时间向前 传播的状态 h。(左) 回路原理图。黑色方块表示单个时间步的延迟。(右) 同一网络被视为展开的 计算图,其中每个节点现在与一个特定的时间实例相关联。当训练循环网络根据过去预测未来时,网络通常要学会使用 h(t) 作为过去序列 (直到 t)与任务相关方面的有损摘要。此摘要一般而言一定是有损的,因为其映射任意长度的序列 (x(t),x(t−1),x(t−2),...,x(2),x(1)) 到一固定长度的向量 h(t)。
以用一个函数 g(t) 代表经 t 步展开后的循环:
函数 g(t) 将全部的过去序列 (x(t),x(t−1),x(t−2),...,x(2),x(1)) 作为输入来生成当前状态展开的循环架构允许我们将 g(t) 分解为函数 f 的重复应用。因此,展开过程引入两个主要优点:
1. 无论序列的长度,学成的模型始终具有相同的输入大小,因为它指定的是从一种状态到另一种状态的转移,而不是在可变长度的历史状态上操作。
2. 我们可以在每个时间步使用相同参数的相同转移函数 f。
无论是循环图和展开图都有其用途。循环图简洁。展开图能够明确描述其中的 计算流程。展开图还通过显式的信息流动路径帮助说明信息在时间上向前(计算 出和损失)和向后(计算梯度)的思想。
10.2 循环神经网络
图 10.3: 计算循环网络(将 x 值的输入序列映射到输出值 o 的对应序列) 训练损失的计算图。损失 L 衡量每个 o 与相应的训练目标 y 的距离。当使用 softmax 输出时,我们假设 o 是未归一化的 对数概率。损失 L 内部计算 ˆ y = softmax(o),并将其与目标 y 比较。RNN输入到隐藏的连接由 权重矩阵 U 参数化,隐藏到隐藏的循环连接由权重矩阵 W 参数化以及隐藏到输出的连接由权重 矩阵 V 参数化。式(10.8)定义了该模型中的前向传播。(左) 使用循环连接绘制的 RNN 和它的损 失。(右) 同一网络被视为展开的计算图,其中每个节点现在与一个特定的时间实例相关联。
图 10.4: 此类 RNN 的唯一循环是从输出到隐藏层的反馈连接。在每个时间步 t,输入为 xt,隐藏 层激活为 h(t),输出为 o(t),目标为 y(t),损失为 L(t)。(左) 回路原理图。(右) 展开的计算图。这样 的 RNN 没有图10.3表示的 RNN 那样强大(只能表示更小的函数集合)。图10.3中的 RNN 可以 选择将其想要的关于过去的任何信息放入隐藏表示 h 中并且将 h 传播到未来。该图中的 RNN 被 训练为将特定输出值放入 o 中,并且 o 是允许传播到未来的唯一信息。此处没有从 h 前向传播的 直接连接。之前的 h 仅通过产生的预测间接地连接到当前。o 通常缺乏过去的重要信息,除非它 非常高维且内容丰富。这使得该图中的 RNN 不那么强大,但是它更容易训练,因为每个时间步可 以与其他时间步分离训练,允许训练期间更多的并行化,如第10.2.1节所述。
任何图灵可计算的函数都可以通过这样一个有限维的循环网络计算,在这 个意义上图10.3和式(10.8)的循环神经网络是万能的。RNN 经过若干时间步后读 取输出,这与由图灵机所用的时间步是渐近线性的,与输入长度也是渐近线性的。
图 10.5: 关于时间展开的循环神经网络,在序列结束时具有单个输出。这样的网络可以用于概括序 列并产生用于进一步处理的固定大小的表示。在结束处可能存在目标(如此处所示),或者通过更 下游模块的反向传播来获得输出 o(t) 上的梯度。