工业推荐系统

【paper reading】Deep Interest Evo

2018-11-28  本文已影响361人  小豆芽turbo

DIEN 是阿里妈妈在9月份公开的一个点击率预估模型。论文中提到的技术点十分值得去研究和尝试一下。之前做了一个slides,今天抽时间将它整理出来~

主要从以下几个角度介绍。

1. 研究背景

2. 相关工作及其不足

3. 解决方案

4. 实验设置与分析

5. 总结与思考


研究背景

【目标 - CTR预估】

论文主要介绍了一种应用于CTR预估的模型。CTR预估是广告系统、推荐系统的核心任务之一。简单来说,就是对每次广告或商品的点击情况进行预估,预测用户点击与否?

【关键 - 对用户兴趣及其演变建模】

因此,想要做好点击率预估,必须在挖掘用户兴趣的同时,抓住用户兴趣的变化过程!


相关工作及其不足

准确的CTR预估需要精细化权衡用户、广告主、平台三方利益。经过多年的技术更新迭代与发展,CTR预估技术经历了从 LR/FM 到 融合模型(RF/GBDT/XGBoost) 到 深度CTR预估模型(FNN/PNN/WDL/DeepFM/DIN)的过程,而贯穿其中的主线是如何让模型自动地进行组合特征的挖掘?

近几年,由于神经网络在图像领域表现出强有力的特征表现及组合能力,深度CTR模型层出不穷,但大多遵从 Embedding + MLP这一基础网络架构。

自底向上观测 Base Model 的工作机制。

Base Model 存在两点不足:


解决方案


基于现有模型存在的两点不足以及论文作者的发现,作者提出了以上网络架构。

解决方案-Interest Extractor Layer

Interest Extractor Layer
在 interest extractor layer 用 GRU 结构的 RNN对依时间产生的序列行为建模,捕捉行为之间的依赖,生成的 interest state( Interest Evolving Layer

兴趣是不断变化的:

Interest Evolving Layer

黄色框中,𝑒_𝑎 是 target ad 的低维嵌入表示。𝑎_𝑡 衡量的是ℎ_𝑡𝑒_𝑎的相关程度。
从数学公式中可以看出,AIGRU 激活局部兴趣和捕获兴趣演变的过程是相互独立的。仅仅是用 𝑎_𝑡 来影响GRU的输入,且即便输入为 0(无关的兴趣)也还是会对hidden state产生影响。
AGRU用 𝑎_𝑡 替代 GRU 的 update gate,直接控制 hidden state 的更新。将 attention 机制融入到了捕获兴趣演变的过程中,一定程度上弥补了 AIGRU 的不足。
但是,原先 GRU 中控制 hidden state 更新的是一个包含多个维度的向量,AGRU 用纯量替代略有不妥,因此这篇文章设计了 AUGRU,用 𝑎_𝑡 影响 𝑢_𝑡 ,再间接影响 hidden state的更新。


实验设置与分析

数据集

若黄色部分为目标商品,则发生在它前面的行为为历史行为(绿色部分)。而它后面一天的数据则用于测试(红色部分)。

对比模型
下面实验着重回答如下问题 Q1

红色框中为带attention机制的模型。

Q2

绿色框中为AIGRU、AGRU以及AUGRU之间的对比。

Q3

BaseModel+GRU+AUGRU 与 DIEN 区别在于是否使用了auxiliary loss。

Q4

将属于8个不同类( Computer Speakers, Headphones, Vehicle GPS, SD & SDHC Cards, Micro SD Cards, External Hard Drives, Headphones, Cases)的行为对应的AUGRU的hidden state 向量提取出来,并用PCA降维将这些向量降低至两个维度,最终得以在二维坐标系上表现出来。

Q5

总结与思考

【亮点】
【思考】

参考文献
[1] Zhou et al. Deep interest network for click-through rate prediction. In KDD. 2018.
[2] He and McAuley. Ups and downs: Modeling the visual evolution of fashion trends with one-class collaborative filtering. In www. 2016.

上一篇 下一篇

猜你喜欢

热点阅读