推荐系统实战之FM(Factorization Machine)
笔者在之前的文章中介绍过使用keras搭建一个基于矩阵分解的推荐系统,而那篇文章所介绍的方法可能只是一个庞大推荐系统中的一小环节。而对于工业级别的推荐系统,面对极其庞大的产品种类数量,一步就输出符合用户心意的产品可能够呛,最好的方式应该是从巨大的产品类别之中粗筛出一些靠谱的待推荐产品,然后再从粗筛的产品中精挑细选出要推荐给用户的最终产品。
工业级别的推荐系统简介
工业级别的推荐系统的架构图如下图所示,大致分为两个阶段:
- 召回阶段:也就是粗筛阶段,由于涉及到的产品数量巨大,大的公司都是千万级别,甚至上亿级别的产品数量,此阶段的模型应该尽量简单,特征维度也尽量少,这样方便快速筛选出一些待推荐的产品。
-
排序阶段:即对上一阶段粗筛出来的待推荐产品进行精挑细选,此阶段为了推荐出符合用户心意的产品,需要模型尽量的准确。而且由于粗筛阶段将数据量减少到几千,甚至几百级别,所以使用复杂模型,并且特征维度也可以尽量丰富,尽量多一些,这样训练出来的模型才能有较强的性能。
推荐系统的架构图
而接下来我要介绍的FM(Factorization Machine)算法,不仅在召回阶段有用武之地,在排序阶段也是很拿得出手的推荐模型。
FM(Factorization Machine)算法简介
Factorization Machine的中文叫因子分解机,FM算法的最强特点就是考虑到了特征的二阶组合——即特征两两组合形成一个新的特征。在产品推荐,CTR预估等任务中,特征相互组合很可能会得到一个特别强的新特征。接下来我们从FM算法的公式来了解一下此算法的精髓:
如果我们单看FM算法的前面一部分: ,这不就是一个Logistics回归模型吗,确实没错,FM算法的前半部分就是Logistics回归,算法的后半部分才体现出FM的特征组合的思想:
- 其中可以理解成特征和特征的另外一种向量表示,
- 向量相乘得到的值则是特征和特征组合特征的权重,
- Logistics回归 + 特征之间的两两组合,最后给每个两两组合而来的新特征乘上一个权重值,就实现了FM算法的特征的二阶组合的思想。
通过下图我们可以将FM算法的公式转化为:
模型训练
结语
笔者之前也介绍过GBDT+ LR,Wide and deep等推荐算法,这次介绍的FM算法也是推荐算法中比较常用的算法,他们都有一个共同的特点——就是这些算法都在寻找特征之间的组合关联,从而实现推荐算法性能的提升。万事万物都存在联系,确实只有算法能够洞察事物(特征)之间联系,才有可能做出更精确的推荐决策。
参考文献
https://zhuanlan.zhihu.com/p/58160982
https://github.com/Hourout/CTR-keras