推荐系统入门实践(3)召回之youtube-dnn

2020-04-30  本文已影响0人  夏安的算法学前班

DNN召回

这里指的是youtube的Deep Neural Network for YouTube Recommendation论文里提到的模型,论文里同时提出了召回和排序,这里先只介绍召回。大厂毕竟还是nb啊,看起来其实挺简单,为什么别人提不出来呢?细节满满,意味着坑也满满。1.论文链接 2.简书上的靠谱分享 3.我之前在简书上的简单一提

直接上图:

image.png

模型很简单,先看输入。左下蓝色的是item embedding,是用item的id从random初始化的emb_matrix里look_up出来的,一个用户(或者说一条样本更准确些)的若干个item平均一下,进入dnn;
绿色的是用户搜索的query,跟item本质上没什么不同,也是平均一下进入dnn;
再其他concat到一起的是各种各样的特征,这里主要是用户的特征。想一下为什么不用item的特征?因为item这么多,你怎么知道加哪个item的特征啊!当然也许是有什么巧妙特征的,只是实践里没这么麻烦过。有了输入,经过三层网络,就是输出,把这个模型当做是超大规模的分类模型,每一个item可以理解为一个类。


问题来了。

输入的emb直接做均值合理吗?
我隐约记得这是论文里指出的,好像是尝试过add/concat效果都不如average。在实践中还是用了加权平均(但没有跟直接平均对照试验过,每次改动的地方都不止一个),权重的设计思想就是跟(观看后的)天数成反比、跟观看完成率成正比,公式是:

 weight_avg_watch = tf.exp(-self.batch_watchDays/7.0) * self.batch_watchProp 

那求均值的视频/query个数要固定吗?
其实没必要固定。在实践中,为了简单起见,训练的时候样本都是固定长度的,而推理(后面会再说一下)的时候就是不固定长度的了,有多少算多少(但设置max),然后求均值。

有梯度消失或梯度爆炸的问题吗?
这是有的,一看三层relu就知道有问题了,实践中改成了leakyrelu,有改善。其他的方法比如clip、BN、lr decay等都可以尝试。

对时间怎么建模?example age是什么?
example age就是target item在“当前”的年龄( the age of the training example ),没有那么多弯弯绕,因为youtube用户对新视频更加偏好,即使相关性不太好也可以.

超大规模的分类,计算资源够用吗?
超大规模的分类,实践中通常是几百万,计算资源开销太大,光算loss都要半年,所以不能这样干。我们用采样的方式构造负样本,TensorFlow牛逼,tf.nn.log_uniform_candidate_sampler这个函数的思想就是给定正样本,在剩下的样本里,越是靠前的越容易被抽出来当负样本,这叫按照 log-uniform (Zipfian) 分布采样。一般采五六百吧。注:vocab是按照频率排的,因此越靠前,就是越热门的item。vocab怎么得到的?可以在产出样本的时候顺便产出。贴一段代码:

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
...
...
    val watchDF = sqlContext.createDataFrame(sampleWatch).toDF("uid", "watch")
    val watchCvModel: CountVectorizerModel = new CountVectorizer()
      .setInputCol("watch")
      .setOutputCol("watch_fea")
      .setVocabSize(watchVocabSize)
      .setMinDF(watchVocabMinFreq)
      .fit(watchDF)
    val watchVocab = watchCvModel.vocabulary.zipWithIndex
    val formatWatchVocab = watchVocab.map(x => s"${x._1}\t${x._2}")
    sc.parallelize(formatWatchVocab, 1).saveAsTextFile(outputWatchVocab)

那直接用展示未点击的来做负样本不好吗?
不好。一个是麻烦。另一个是,展示未点击的,其实是排序模型认为很好的选项了,直接用label=0来打击它并不好,一般用户对它是有一定的兴趣的。还有就是,要predicting future watch,而不是predicting held-out watch,不要偷窥未来。

要如何构造样本?上面两段说明了负样本如何选择,其实就是为了在这里说样本如何选择。负样本是采样得到的,那构造样本的时候只要记录input和正样本就好了。正样本是什么?点击的?观看的?还是观看完成度高于某个值的?这里需要根据业务来定,比如长视频,甚至还需要你将用户分段的观看累计起来。input是什么?我们有了用户的观看或者行为历史,既可以一个用户产出多条样本,也可以一个用户产出一条样本,这两个选项又分别有多种不同的方法。比如,一个用户的正向行为list是abcdefg,那我的样本可以是(abcd->e,abcd->f,abcd->g,bcde->f,bcde->g)。这个选择比较自由,也没有对比过优劣,应该是差不多的。

用户特征选什么比较好?
用户特征使用静态特征(年龄、性别、居住地...)比较好,因为统计特征本质上只是区分了用户是否活跃,这不是我们想要的。或者其他各种途径得到的用户emb特征,也可以加进去试试。

有什么其他的改进吗?

网络结构的代码可见 youtube-dnn-recall-structure.py


问题又来了。

上面一节说的主要是训练。这一节主要说线上服务。

那我要怎么提供线上服务啊?

加一个问题,UI召回里的相似度怎么算?为什么?II呢?
UI召回的相似度是用内积的,而不是余弦,这是因为网络训练的时候就是内积计算。II召回的相似度,内积、余弦、欧氏距离,都可以尝试,可以根据实际情况来决定,我在实践中是都用过,效果差不多,都还不错。但从理解上来说,余弦可能更科学一点,毕竟是同一空间?

再加一个问题,softmax的W要不要归一化?hidden要不要归一化?也就是说,user和item的emb需要归一化吗?从上文的理解来说,都行,这个意思是,你在训练的时候怎么做的,在用的时候就怎么做。如果你网络里归一了,使用的时候就归一,如果没有,那就不用,不然会起反效果(试验过的)。

插一个问题,faiss训练index的具体原理?faiss是一种高效的k-means聚类实现,facebook 牛逼(破音)!具体的我也没太了解过。安装可以看久远的过去,使用可以看简书大佬的分享。贴几句使用示例吧:

    index = faiss.index_factory(dim, factory)
    index.nprobe = nprobe
    index.train(embedding_all)
    index.add_with_ids(embedding_all, fid_all)
    faiss.write_index(index, out_index)

好了,现在知道item的emb要训练index索引了,当然这个item emb在训练结束时候可以存下来。user的emb要怎么弄?一种方法是python来load模型然后推理一次,一种方法是手写前向然后推理。python的优点是简单,手写一般是用scala/java,优点是可以为后续的实时化做准备。贴一小段代码:

import breeze.linalg.{DenseMatrix, DenseVector, normalize}
...
...
  def feedForward(x: DenseVector[Double],
                  w: Array[DenseMatrix[Double]],
                  b: Array[DenseVector[Double]]): DenseVector[Double] = {
    val layer0 = w(0) * x + b(0)
    val relu0 = layer0.map { e => if (e > 0) e else 0.0 }
    val layer1 = w(1) * relu0 + b(1)
    val relu1 = layer1.map { e => if (e > 0) e else 0.0 }
    val layer2 = w(2) * relu1 + b(2)
    val relu2 = layer2.map { e => if (e > 0) e else 0.2 * e }
    relu2
  }

dnn召回的效果指标都挺不错,展示占比也不低,是主要的召回源之一。实践中,user的emb存到cb,通常只存最新的,而item的index需要训练新旧两个版本,避免cb没刷完时user找不到item。

上一篇下一篇

猜你喜欢

热点阅读