非侵入式Self-attention多维信息融合

2021-06-12  本文已影响0人  偲偲爸

非侵入式Self-attention多维信息融合

Bert模型自2018年提出至今依旧辉煌热度不减,其在自然语言领域取得的成绩非常注目。一些研究已经将Bert应用在了序列数据的处理上,比如序列推荐场景下。然而在推荐场景下除了item序列之外,还有存在与序列item相关的额外信息(如用户在item的驻留时长、item类型等),又因为Bert模型只使用一种token序列作为输入,所以如何将与token相关的额外信息融合到模型,以及融合模型是否能提升模型性能成为一个新的研究方向。

Bert的强大是不能缺少的self-attention机制的贡献的。正是由于Self-attention机制可以解决RNN无法处理的长依赖问题和Self-attention优秀的并行能力,成就了Bert的声名鹊起。当然应用Self-attention机制的另一个明星模型就是地表最强模型——GPT了,目前OpenAI已经将GPT演进到了GPT-3了。

论文地址:https://arxiv.org/pdf/2103.03578.pdf

从Self-attention说起

self-attention机制可以理解为对输入序列的加权和,而其中的加权系数也就是所谓的Attention了,那么self主要表达了这些加权系数是由输入序列计算而来并且作用于输入的token,这与传统的attention机制有所不同。当然这里主要是针对Transformer模型中的encoder进行说明。其计算过程可以由下图来说明


SA.png

self-attention计算过程示例

其中由x^1,x^2,x^3,x^4组成长度为4的序列,经过embedding之后得到a^ia^i在分别经过W^Q,W^K,W^V三个线性变换得到q^i,k^i,v^i. 之后分别计算attenton权重\hat{a}_{i,j}经过加权和得到x_i对序列所有token的综合向量b^i, 即完成了x_i的self-attention过程。

SA(Q,K,V)=\sigma (\frac{QK^T}{\sqrt d_k})V

从上述过程中可以看出,原始self-attention计算过程中仅仅将token经过上述计算过程,与token相关的其他相信并未经过该流程。此外,序列中token本身的position信息经过编码(Transformer是由余弦函数编码,Bert则由随机Embedding编码)与向量a^i对应相加。若认为position信息是一种token的额外信息的话,那么论文作者认为这种直接相加的方式属于侵入式信息融合。当采用同样的侵入方式处理其他额外相关信息的话,其效果不明显甚至有反效果。

为什么侵入式融合的效果差?

作者在一些先导性试验上验证了侵入式的信息融合并不能取得一个明显的提升效果,甚至会导致效果变差。其中可能的原因有两个:

  1. 直接在item表征上加入额外相关信息后,会造成item信息淹没;
  2. 一般情况下,模型利用self-attention层堆叠进行自动编码,融合额外信息后的映射空间会形成一个混合空间映射,在对item表征进行解码时带来混乱或困难。

这里的直接相加是一种融合方式,此外如拼接、有门控制的相加等融合方式同样无法解决这两种问题。

解决方案

如何解决信息淹没和混合映射空间带来的问题呢?作者提出了一种新的解决方案,首先我们定义用户序列:

S_u=[v^{(1)}_u, v^{(2)}_u, ..., v^{(n)}_u]

其中v^{(j)}_u表示用户在第j次产生的交互实体,v^{(j)}_u \in I, I= \{ID^{(1)}, ID^{(2)}, ..., ID^{(m)}\}I是交互实体item的集合,也就是vocabulary。

额外相关信息可以分为两种:一种是和用户行为相关的信息b_{u,j},一种是和交互实体item相关的信息f_k。加入额外信息后,交互序列的实体表示为:

v_u^{(j)}=(I^{(k)}, b_{u,j}^{(1)}, b_{u,j}^{(2)},...,b_{u,j}^{(q)})

I^{(k)}=(ID^{(k)},f_k^{(1)},f_k^{(2)},...,f_k^{(p)})

将实体item和额外信息综合表征得到

\begin{aligned} E_{u,j}=\mathcal{F}(&\mathcal{E}_{id}(ID),\\ &\mathcal{E}_{f1}(f^{(1)}), \mathcal{E}_{f2}(f^{(2)}), ..., \mathcal{E}_{fp}(f^{(p)}), \\ &\mathcal{E}_{b1}(b_{u,j}^{(1)}), \mathcal{E}_{b2}(b_{u,j}^{(2)}), ...,\mathcal{E}_{bq}(b_{u,j}^{(q)})) \end{aligned}

其中E_{u,j}表示对用户第j次交互的综合表示,\mathcal{F}表示融合函数,\mathcal{E}表示对应的embedding层。其中融合函数主要有直接相加融合、逐点乘积融合和门函数融合等方式。

定义仅有实体ID得到的表示为

E_{u,j}^{(ID)}=\mathcal{E}_{id}(ID)

于是,用户序列的表征可以分为两种,仅由ID得到的表征和包含额外信息的综合表征:

\begin{aligned} &R_u^{(ID)}=(E_{u,1}^{(ID)}, E_{u,2}^{(ID)}, ..., E_{u,n}^{(ID)})\\ &R_u=(E_{u,1},E_{u,2},...,E_{u,n}) \end{aligned}

则新的注意力计算为:

NOVA(R,R^{(ID)})=\sigma(\frac{QK^T}{\sqrt d_k})V

其中Q=RW_Q, K=RW_k, V=R^{(ID)}W_v,即Q,K由包含额外信息的综合表征经过线性变换求得,V由仅包含ID信息的表征经过线性变换求得。

2021-06-07_162929.png

上图表达了侵入式融合和非侵入式融合的两种方式。

实施方案

作者的具体实施方案如下图所示:

nova.png non-invasive.png

左图是作者在原始Bert架构上做了调整,将额外信息作为辅助融合到模型中,具体融合方式由右图说明。其中作为辅助的额外信息在Bert layer迭代过程中始终不变,而id信息则随着迭代不断进行更新。作者认证尽管id表征信息不断在更新,但是其始终处于同一映射空间中,所以在该映射空间中解码会获得更加准确的编解码。

实验结果

作者使用新的融合方案后得到的attention在多个数据集上均取得了最好的性能表现。

sota.png
上一篇下一篇

猜你喜欢

热点阅读