EGES学习笔记
2021-02-22 本文已影响0人
林桉
一种引入边信息的变权重GES方法。
- 建图模块采用networkx,session建立使用用户自定义+deepwalk。
- 适用场景,限于user行为较少,但商品冷启动时,商品类别、价格等边信息较丰富的场景,并不是所有场景都适用。
-
一般场景(用户行为并不特别少+商品类别信息模糊),建议W2V+deepwalk效果要优于EGES。
image.png
算法的目的是生成商品的表示向量,对商品两两之间做点积,计算商品之间的相似度。对用户有过行为的每个商品,召回一批最相似的商品,这个阶段文章称为matching,然后将这些商品送给第二个阶段ranking做排序。
image.png
边信息引入
类别、价格、品牌,引入边信息填补用户行为不足无法建立有效训练session的缺陷。
边信息校验,TSNE获取主元,如果边信息有效会呈现散点聚类的效果。

训练环节与行为数据在同一向量空间上训练。
建图过程
采用用户点击、加购数据,按照经验时间限定session,不宜过长。
emdedding加权

由不变权重改为变权重方式,每次更新权重参数

取e为了使权重非负。
deepwalk进行resession

先利用行为数据进行初步session划分,然后利用加购频次来定义变权重,构建sku-sku的pair对。利用deepwalk获取权重最大的session序列。
训练环节

走skip-gram的方式,无全连接层。
线上使用
配合faiss进行相似度匹配
参考
原文链接 https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1803.02349.pdf
https://zhuanlan.zhihu.com/p/70198918