推荐系统论文阅读(四十七)-DMIN:用户多兴趣演化网络
论文:
论文题目:《Deep Multi-Interest Network for Click-through Rate Prediction》
论文地址:https://dl.acm.org/doi/pdf/10.1145/3340531.3412092
今天来看一篇阿里发在CIKM的short paper,主要聚集在多兴趣跟兴趣演化这两个方向。
一 、背景
不管在电商领域还是短视频领域,用户的兴趣通常是多样的,潜藏在一个隐空间中,同时,用户在一个时间段內的兴趣是会演化的,用户的兴趣演化潜藏在序列item的变化过程中,所以为了建模这种多兴趣跟演化性,阿里提出来DMIN模型。
DMIN模型跟DIN和DIEN的模型如出一辙,特征部分可以说是跟另外两个模型一样,如果你之前对于din和dien比较熟悉的话,那接下来看这篇论文就很容易通透了。
二、DMIN模型
2.1 Embedding Layer
模型的输入分为四个部分,,分别表示用户特征,用户行为序列特征,target item特征,和上下文特征,每个特征都会离散化然后经过embedding层映射为一个向量,其中
2.2 Behavior Refiner Layer
熟悉DIEN的同学都知道,DIEN中的GRU有两层,这里Behavior Refiner Layer的作用跟DIEN第一层GRU层的作用差不多,就是把GRU换成了self-attenton,dien中的辅助loss还是一样拿过来用了,直接看具体的公式吧:
辅助loss还是一样的,预测下一个item,负样本通过随机采样:
2.3 Multi-Interest Extractor Layer
dien中的第二层扮演建模用户兴趣演化方向的作用,而在DMIN中,为了同时建模用户的在序列中的多兴趣和演化性,还是使用了multi-head-selft-attention机制,具体而言请看公式:
interest-h的计算跟din中attention计算score一样,主要是为了计算第h个兴趣的表示,我们知道一共有e个head,在每个head中都有T个向量,我们interest的计算是在每个head中进行的,对于上面公式的符号,我们还是来讲一下:表示第h个head中的第j个item的向量,xt是target item的向量,pj是position embedding,a的计算跟图中描述一样,具体就不展开了。
跟din计算不同的地方在于引入了PE,应该是为了考虑时间因素,让最近时间的行为重要性更大。
最后我们得到:
2.4 MLP & Loss Function
这一层就更没啥好说的了,把所有的向量concat起来->MLP->sigmoid就完事了: