工业推荐系统

深度推荐模型之DIN学习

2019-01-23  本文已影响0人  妖皇裂天

  DIN,Deep Interest Network,深度兴趣网络。论文的关键在于对用户历史行为的embedding向量的改进。模型结构如下:

基本DeepCTR网络结构和DIN网络结构.png 左边是一般的深度推荐模型,右边则是DIN模型。改进的关键在于DIN提出了一个局部激活单元,用来产生用户历史行为特征的权重,从而根据候选商品进行自适应调整不同历史行为特征对最终结果的影响程度。传统方法中不管候选商品是什么,经过SUM Pooling后得到的用户历史行为特征都是一样的。但是从现实角度来看,对于不同的候选商品,用户的不同历史行为商品的影响程度是不一样的,而传统深度模型并没有体现出这一点。而DIN中的local activation unit则会根据历史行为商品和候选商品算出一个权重作为该历史行为商品对点击率的影响程度,此时经过 SUM Pooling后得到的用户历史行为特征则会根据不同候选商品发生变化,模型的多样化表征能力也就更强了。我们再来看下上图最右边的local activation unit,模型的输入是历史行为商品embedding向量和候选商品embedding向量,但是传到内部全连接层的输入还加上了两个特征向量的乘积,论文中提到是为了“help relevance modeling”。
  其他的工程改进还有:
  1. 对正则化进行改进。由于商品id维度太大了,这类特征对应的embedding矩阵表是巨大的,模型参数太多,如果不加正则化则模型很快过拟合(论文中也指出不加regularization模型在第一个epoch后就过拟合了)。但是直接加上传统的L2正则是不现实的,因为加入L2正则后,每个batch都要对整个embedding矩阵表进行更新,这样会带来过多的计算量。DIN提出了新的正则化方式,只对batch中参与了前向计算的embedding向量进行更新,此时有L_2(W) \approx \sum_{j=1}^K\sum_{m=1}^B\frac{\alpha_{mj}}{n_j}||w_j||_2^2。其中,K表示特征空间维度(也就是embedding矩阵表的行数),B表示batch-size,\alpha_{mj}表示当前batch第m个样本中是否出现了第j个特征id,从而决定是否要对该特征id对应的embedding向量w_j加上正则化。
  2. 对激活函数进行改进。DIN对PReLU进行改进,提出了Dice。PReLU是带参数的ReLU,公式如下:PReLU(s) = \begin{cases} s,&\text{$s$>0} \\ \alpha s,&\text{$s \leq$0} \end{cases}=p(s)*s+(1-p(s))*\alpha s其中\alpha是可学习的参数,p(s)根据输入s取0或者1。当\alpha固定时,PReLU就是ReLU或者leakyReLU。PReLU的不足在于p(s)是硬分配,激活函数的分界点是固定的,所以Dice对PReLU做了一点改进,保证函数的分界点是自适应的。Dice公式如下:f(s)=p(s)*s+(1-p(s))*\alpha s, \; p(s)=\frac{1}{1+e^{-\frac{s-E(s)}{\sqrt{Var(s)+\epsilon}}}}其中,在训练阶段E(s)Var(s)是输入batch的均值和方差,测试阶段则是所有batch均值和方差的滑动平均。当E(s)Var(s)都是0时,Dice就是PReLU了。
  3. 评估标准的改进。Metrics的不同,模型最后达到的效果也是不一样的。一般的CTR都是选择AUC作为评估标准,但是不同用户的点击习惯是不一样的,为了消除用户偏差对模型性能评估的影响,DIN选择对每个用户单独计算AUC,最后再计算整体AUC。新的AUC计算公式如下:AUC_{new} = \frac{\sum_{i=1}^n \#imporession_i *AUC_i}{\sum_{i=1}^n \#impression_i}其中\#impression_i表示第i个用户在测试集中出现的次数,AUC_i表示第i个用户的传统AUC值。传统AUC方式是将测试集中的所有预测结果进行排序计算AUC值,新的AUC计算方式是将测试集中的样本按照用户拆分,对每个用户的预测结果进行排序计算AUC值,这样计算的AUC值就能更好的反映模型对于不同用户的预测效果,最后再将这些AUC值进行加权求和得到最终模型的整体评估效果。
上一篇下一篇

猜你喜欢

热点阅读