因果推断推荐系统工具箱 - Dual Bandit(二)

2022-01-07  本文已影响0人  processor4d

文章名称

【KDD-2020】【Adrem Data Lab/Criteo AI Lab】Joint Policy-Value Learning for Recommendation

核心要点

文章旨在提升现有基于off-policy或反事实学习的推荐模型的效率。作者分析首先分析现有方法在随机的、系数的奖励下效果不佳的原因,并提出一种IPS方法的对数变种,解决该问题。进一步,通过提升优化目标的凸性加速模型的优化求解。此外,基于一定假设,可以将CRM和MLE的目标结合,共同优化,提出了Dual Bandit。

上一节描述了作者研究的问题背景以及现有方法的问题,回顾了bandit feedback的形式化定义以及所谓的value-based方法。本节继续介绍policy-based方法以及作者提出的DB方法。

方法细节

问题引入

如前所述,作者指出已有的基于监督学习的value-based方法在动作空间较大时,上下文特征与动作所组成的元组会比较系数,某个元组的出现概率会非常小,导致在进行重要性采样时方差比较大,利用现有数据对新策略进行评估的结果不稳定。因此需要更稳定、鲁邦的方法。那么,policy-based方法为什么不可行,作者又如何改进的?

具体做法

首先回顾一下问题的定义,

  • \mathcal{D }表示logged bandit feedback,其中每一个样本表示为元组(\boldsymbol{x}_i, a_i, p_i, c_i),分别表示上下文向量,被选取的动作标号,该动作被选取的概率,以及最终的收益。作者提到利用\boldsymbol{a}_i来表示被选取的动作的one-hot向量。
  • 线上策略记作\pi_0(实际上是一种从上下文到动作映射,\pi_0: \boldsymbol{x} \rightarrow a,所谓动作也就是可以被推荐的物品。),每一个样中的p_i = \pi_0(a_i|\boldsymbol{x}_i)

Policy-based Approaches

与value-based方法在给定上下文-动作元组(\boldsymbol{x}, a)的情况下,建模点击概率(the value)不同于,policy-based方法不具体估计每种(\boldsymbol{x}, a)的值,而是直接把上下文映射\boldsymbol{x}到具体的a(说到这里,有点像RL了,其实RL的value-base实际上也是估计了动作-状态元组的return的)。例如,contextual bandit方法,利用如下公式,直接生成对应的动作。其中,\boldsymbol{\theta}是模型的参数。

policy-based model

上述公式是基于指数模型的,当然可以采用其他建模方式。该模型的目标是在给定上下文\boldsymbol{x}下,返回能够得到最优收益的动作a其中,收益可以是点击数量。通过如下图所示的公式,可以基于线上策略\pi_0的logged bandit feedback,评估目标策略\pi_\theta的效果。同时,利用公式6(确定性的策略)得到最优的动作。

deterministic policy

为解决IPS方法的高方差问题,POEM[47],BanditNet[17]以及PIL-IML[27]被提出,这些方法被统称为Counterfactual Risk Minimisation (CRM)(类)方法。他们引入方差消除项(sample variance penalisation (SVP),例如,self-normalisation (SNIPS) or imitation learning (IML)来消除高方差的影响。实际上,它们是在限制新策略不会偏离线上策略太远,从而避免稀疏动作的不确定性带来的高方差。因此,会存在上一篇提到的,很难快速优化的问题,或者优化的收益有限。

此外,作者一些方法利用RL中用到的REINFORCE[50]来解决top-K推荐[4]和两阶段推荐流程优化[26]的问题。但是在作者的研究场景下(单个物品的点击和不点击),这些方法和IPS方法的表现没差。

Doubly Robust (DR)[6],More Robust Doubly Robust (MRDR)[7],Continuous Adaptive Blending (CAB)[44]等方法需要引入额外的收益估计模型,或者评估性能优于选取最优策略的性能,因此,不适用当前的研究场景(个人感觉,其实就是太复杂了,作者没有跟他们比较)。另外,online优化的方法,例如,contextual bandit,无法做到离线评估。

作者还提到,贝叶斯方法[33, 37]是一个很有潜力的方向,在其他场景取得了很不错的结果。

回顾一下,value-based损失函数和动作选取策略。可以看出,如果\boldsymbol{\beta} \equiv \boldsymbol{\theta}。那么,上述policy-based策略(公式6)和value-based策略(公式3)实际上是一样的。虽然两种方法要优化的损失(公式1和公式5)是完全不同的。

value-base loss value-based optimal policy

值得注意的是,

  • value-based方法(这里是MLE)忽略了倾向性得分(或者说忽略偏差)直接建模每种情况(每种动作)的目标收益(点击和不点击);
  • policy-based方法(这里是contextual bandit)则利用倾向性的分纠正偏差,利用点击数据直接寻找新的最优策略,但是忽略了没有点击的数据

作者也基于想到了结合两者,融合两者的优势,提升效果。

本节继续介绍policy-based方法的细节以及其他变种方法,回顾了valube-base方法和policy-base方法的异同。下一节介绍作者提出的DB方法。

心得体会

贝叶斯方法

贝叶斯方法一直是一个非常有前途的方向,在实际场景中,其实有一些先验知识是可以引入的。但是贝叶斯方法理论性相对复杂,研究也比较少(或许是我孤陋寡闻),所以工业界用的非常少。但是作者提到贝叶斯方法在小样本上效果不错(由于有先验),也许是可以尝试的。

文章引用

[4] M. Chen, A. Beutel, P. Covington, S. Jain, F. Belletti, and E. H. Chi. 2019. Top-K
Off-Policy Correction for a REINFORCE Recommender System. In Proc. of the 12th ACM International Conference on Web Search and Data Mining (WSDM ’19). ACM, 456–464.

[6] M. Dudík, J. Langford, and L. Li. 2011. Doubly Robust Policy Evaluation and Learning. In Proc. of the 28th International Conference on International Conference on Machine Learning (ICML’11). 1097–1104.

[7] M.Farajtabar,Y.Chow,andM.Ghavamzadeh.2018.MoreRobustDoublyRobust Off-policy Evaluation. In Proc. of the 35th International Conference on Machine Learning (ICML’18, Vol. 80). PMLR, 1447–1456.

[17] T.Joachims,A.Swaminathan,andM.deRijke.2018.DeepLearningwithLogged Bandit Feedback. In Proc. of the 6th International Conference on Learning Repre- sentations (ICLR ’18).

[26] J. Ma, Z. Zhao, X. Yi, J. Yang, M. Chen, J. Tang, L. Hong, and E. H. Chi. 2020. Off-Policy Learning in Two-Stage Recommender Systems. In Proc. of the 2020 World Wide Web Conference (WWW ’20). ACM.

[27] Y. Ma, Y. Wang, and B. Narayanaswamy. 2019. Imitation-Regularized Offline Learning. In Proc. of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS) (AIStats ’19, Vol. 89). PMLR, 2956–2965.

[33] S.Rendle,L.Zhang,andY.Koren.2019.OntheDifficultyofEvaluatingBaselines:
A Study on Recommender Systems. arXiv:1905.01395 [cs.IR]

[37] R. Salakhutdinov and A. Mnih. 2008. Bayesian Probabilistic Matrix Factorization Using Markov Chain Monte Carlo. In Proc. of the 25th International Conference
on Machine Learning (ICML ’08). ACM, 880–887.

[44] Y. Su, L. Wang, M. Santacatterina, and T. Joachims. 2019. CAB: Continuous Adaptive Blending for Policy Evaluation and Learning. In International Conference on Machine Learning (ICML’19). 6005–6014.

[47] A. Swaminathan and T. Joachims. 2015. Batch learning from logged bandit feedback through counterfactual risk minimization. Journal of Machine Learning
Research 16, 1 (2015), 1731–1755.

[50] R.J.Williams.1992.SimpleStatisticalGradient-FollowingAlgorithmsforConnec-
tionist Reinforcement Learning. Machine Learning 8, 3–4 (May 1992), 229–256.

上一篇 下一篇

猜你喜欢

热点阅读