1、背景

本文关注的是用户关注列表的推荐问题，即在给定用户的历史交互行为的情况下，预测在用户关注列表中下一个时刻中最可能发生交互的物品。该任务有两个重要的特点：

1）每次推荐只需要关注用户关注列表的偏好，而不是预测用户对所有物品的偏好，用户的关注列表的数据是非常稀疏的（大部分物品只出现过很少的次数），如果只使用物品ID对物品进行表示，容易导致模型的过拟合。
2）用户对关注列表中物品的偏好的变化，可能会从用户最近的浏览记录中反映出来，如用户可能浏览过与关注列表中物品相同商家或品牌的其他物品，以此来探索其他可替代的物品。

那么对于上述两方面的特点，本文提出了Trans2D，引入物品多样的属性来对物品进行表示，同时通过Attention2D机制，来学习用户多样的偏好模式，如价格便好，类别偏好等等。接下来，咱们对具体的模型结构进行介绍。

2、方法介绍

Trans2D的整体结构如下图所示：

接下来，咱们从模型输入，Embedding层、Attention2D以及Prediction层对模型进行详细介绍。

2.1 Model Input

模型的输入主要包含两部分：用户历史行为序列和当前待推荐的物品。使用用户的历史行为序列来刻画用户偏好的变化，包含两部分，一部分是用户在关注列表中点击的物品，以及用户浏览过的其他物品（这里指进入了物品详情页，而非曝光）：

过往的大多数用户行为序列建模中，物品序列使用其ID序列表示，这种做法在用户关注列表推荐场景下有两个主要的缺点：
1）冷启动物品对应的Embedding无法学习到
2）训练数据中出现次数较少的物品ID对应的Embedding学习不充分，容易导致过拟合。

因此，论文使用属性集合来对物品进行表示，来解决上述两方面的问题。同时能够配合下文的Attention2D来学习用户更精细化的偏好模式，如价格便好，类别偏好等等。

这里，历史行为序列的长度设定为N，物品属性个数设定为C。

2.2 Embedding Layer

上一节讲到，用户的历史行为序列长度为N，属性个数为C，接下来通过Embedding Layer，将每个属性值转换成对应的Embedding表示。假设每个Embedding的长度为d，那么行为序列E的维度为NCd。同样，推荐物品的属性也会转换成对应的Embedding表示，维度为1Cd。因此输入的总维度为(N+1)Cd

2.3 Attention2D

接下来，论文引入了Transformer建模历史行为序列中用户兴趣的变化以及与目标物品的相关性，这种兴趣和相关性建模作用于更加精细化的属性维度，如价格、折扣等等。但是Transformer并不能直接作用在2D的数据上，因此论文创新性地提出了Attention2D，来处理这种2D数据。

具体地，首先引入Linear2D将每个物品的每个元素转换成对应的Q、K、V，相同属性采用相同的参数，不同属性参数不同。Linear2D计算过程如下；

上面公式中i和j分别代表第i个物品和第j个属性。随后，分别计算三个Attention矩阵：

A^F是一个4D的attention矩阵，代表任意两个物品的任意两个属性之间的相关性；A^I是一个2D的attention矩阵，代表的是物品之间的相关性；A^C同样是一个2D的attention矩阵，代表属性之间的相关性。最终的Attention矩阵为4D的矩阵，为上述三个矩阵的线性加权：

引入后面两项有点类似类似于矩阵分解中的偏置项，一方面，尽管不同商家个别属性间属性的相似性不高，但商家之间整体相似性很高（如肯德基和麦当劳），那么也希望在最终的attention map中具有相对较高的值，另一方面，如果两个属性之间相似性很高（如配送费和配送距离），也希望在最终的attention map中具有相对较高的权重。

随后，基于Attention矩阵对V进行加权，得到该部分的输出为：