传统推荐模型

2020-07-22  本文已影响0人  小幸运Q
image.png image.png
  1. 即使是深度学习空前流行的今天,LR、FM等传统CTR模型仍然凭借其可解释性强、轻量级的训练部署要求、便于在线学习等不可替代的优势,拥有大量适用的应用场景。模型的应用不分新旧贵贱,熟悉每种模型的优缺点,能够灵活运用和改进不同的算法模型是算法工程师的基本要求。

  2. 传统CTR模型是深度学习CTR模型的基础。深度神经网络(Deep Nerual Network,DNN)从一个神经元生发而来,而LR正是单一神经元的经典结构;此外,影响力很大的FNN,DeepFM,NFM等深度学习模型更是与传统的FM模型有着千丝万缕的联系;更不要说各种梯度下降方法的一脉相承。所以说传统CTR模型是深度学习模型的地基和入口。

image.png

(1)协同过滤:物品/用户相似度,有矩阵稀疏的问题,引入矩阵分解模型(MF)解决这个问题。用户数量远大于商品数量,导致ItemCF比较受欢迎,UserCF比较少用。(而且用户在一段时间内往往对某一类商品感兴趣)


(2)矩阵分解:为每一个用户和视频生成一个隐向量,各自投影到隐向量的空间,在这个隐向量的空间距离越近,越是相似。


(3)LR模型:协同过滤只使用了用户之间,商品之间,还有用户-商品之间的显性还有隐性关系。LR则能融合更多的特征。此外还有增强了非线性能力的LS-PLM(大规模分片线性模型),LR发展出来的FM模型等。


(4)因子分解机模型:在传统逻辑回归基础上,加入了二阶部分,使模型有了特征组合的能力。在此基础上发展的域感知因子分解机则通过加入特征域加强了特征交叉的能力。

两阶(两特征交叉)

二阶部分:\sum_{j_1=1}\sum_{j_2=j1+1}w_{j_1}w_{j_2}x_{j_1}x_{j_2},使用两个特征隐向量做内积作为交叉特征的权重,训练复杂度从n^2降到了n*k级别。对于<B,C>的组合特征,可以利用<A,B>对B的隐向量进行更新,也可以利用<C,D>对C的隐向量进行更新。这大幅减少了模型对数据稀疏度的要求。对于从未出现的<A,D>也可以根据<A,B>和<C,D>中A和D的隐向量内积进行计算。FM可以利用梯度下降进行计算。

三阶(三特征交叉)

在FM中计算x_{j1}与其他特征的交叉影响时,使用的都是同一个隐向量V_i

二阶部分:\sum_{j_1=1}\sum_{j_2=j1+1}(w_{j_1,f_2}w_{j_2,f_1})x_{j_1}x_{j_2},每个特征对应一组k维的隐向量,对x_{j_1}x_{j_2}进行交叉的时候,特征x_{j_1}会从底下的一组隐向量中挑出与特征x_{j_2}的域f_2对应的隐向量w_{j_1,f_2}进行交叉。复杂度k*n*n比FM的kn更高。


(5)组合模型:GBDT(生成离散的特征)+LR(CTR预测)

图中有两个树,一般都是多少个类对应多少棵树(多个二分类叠加)

按照决策树的规则落到的叶节点置为1,其他置为0,则有离散输出[0,...,1,...0],将各个子树的离散向量拼接在一起可得[0,..,1,..0..,1,..0,..1],决策树的深度决定了特征组合的阶数。GBDT模型容易过拟合。GBDT这种特征转换方式实际上丢失了大量特征的数值信息(连续变离散),因此我们不能简单说GBDT由于特征交叉的能力更强,效果就比FM或FFM好。

image.png

如果对女装预测,显然不需要男生的数据,所以需要对不同用户群体先聚类,然后对各个分类施以LR进行CTR预估。

如图,LR不能拟合非线性数据,MLR可以拟合非线性数据.png

MLR就像它的名字一样,由很多个LR模型组合而成。用分片线性模式来拟合高维空间的非线性模式。

理论上来说,增大分片m可以带来无限制的非线性拟合能力,但是同样会增加计算、存储的开销,同时会带来过拟合的风险。

当我们将softmax函数1/1+e^{-x}作为分割函数σ(x),将sigmoid函数e^x1 / e^x1+...+e^xm作为拟合函数η(x)的时候,MLR模型为:p(y=1|x)=\sum_{i=1}^{m}\frac{e^{u_i^Tx}}{\sum_{j=1}^{m}e^{u_j^Tx}}\frac{1}{1+e^{-w_i^Tx}}

此时的混合模型可看做一个sum{softmax系数权重*sigmoid概率},当m=1时,退化为普通的LR:p(y=1|x)=\sum_{i=1}^{m}p(z=i|x)p(y|z=i,x)

MLR 在建模时引入了 L1 和 L2,1 范数正则,可以使得最终训练出来的模型具有较高的稀疏度。L2,1=\sum_{i=1}^{n}\sqrt{\sum_{j=1}^t}X_{i,j}^2(L2,1范数实为矩阵X每一行的l2范数和)L2,1范数还要求行稀疏(从行的角度看是l1)

image.png

线性偏置:< 1 > Position Bias:排名第1位和第5位的样本,点击率天然存在差异。宝贝展示的页面、位置影响点击率< 2 > Sample Bias:PC和Mobile上的样本,点击率天然存在差异。

?物品特征x,偏移向量y(场景,页数,位置等),学习联合概率p(x, y)

LS-PLM可看作加了注意力机制的三层神经网络,隐层是m个神经元(分片),注意力机制就是分片函数对神经元的打分权重。

上一篇下一篇

猜你喜欢

热点阅读