因果推断推荐系统工具箱 - Dual Bandit（二）

2022-01-07 本文已影响0人 processor4d

文章名称

【KDD-2020】【Adrem Data Lab/Criteo AI Lab】Joint Policy-Value Learning for Recommendation

核心要点

文章旨在提升现有基于off-policy或反事实学习的推荐模型的效率。作者分析首先分析现有方法在随机的、系数的奖励下效果不佳的原因，并提出一种IPS方法的对数变种，解决该问题。进一步，通过提升优化目标的凸性加速模型的优化求解。此外，基于一定假设，可以将CRM和MLE的目标结合，共同优化，提出了Dual Bandit。

上一节描述了作者研究的问题背景以及现有方法的问题，回顾了bandit feedback的形式化定义以及所谓的value-based方法。本节继续介绍policy-based方法以及作者提出的DB方法。

方法细节

问题引入

如前所述，作者指出已有的基于监督学习的value-based方法在动作空间较大时，上下文特征与动作所组成的元组会比较系数，某个元组的出现概率会非常小，导致在进行重要性采样时方差比较大，利用现有数据对新策略进行评估的结果不稳定。因此需要更稳定、鲁邦的方法。那么，policy-based方法为什么不可行，作者又如何改进的？

具体做法

首先回顾一下问题的定义，

$\mathcal{D }$ 表示logged bandit feedback，其中每一个样本表示为元组 $(\boldsymbol{x}_i, a_i, p_i, c_i)$ ，分别表示上下文向量，被选取的动作标号，该动作被选取的概率，以及最终的收益。作者提到利用 $\boldsymbol{a}_i$ 来表示被选取的动作的one-hot向量。

线上策略记作 $\pi_0$ （实际上是一种从上下文到动作映射， $\pi_0: \boldsymbol{x} \rightarrow a$ ，所谓动作也就是可以被推荐的物品。），每一个样中的 $p_i = \pi_0(a_i|\boldsymbol{x}_i)$ 。

Policy-based Approaches

与value-based方法在给定上下文-动作元组 $(\boldsymbol{x}, a)$ 的情况下，建模点击概率（the value）不同于，policy-based方法不具体估计每种 $(\boldsymbol{x}, a)$ 的值，而是直接把上下文映射 $\boldsymbol{x}$ 到具体的 $a$ （说到这里，有点像RL了，其实RL的value-base实际上也是估计了动作-状态元组的return的）。例如，contextual bandit方法，利用如下公式，直接生成对应的动作。其中， $\boldsymbol{\theta}$ 是模型的参数。

policy-based model

上述公式是基于指数模型的，当然可以采用其他建模方式。该模型的目标是在给定上下文 $\boldsymbol{x}$ 下，返回能够得到最优收益的动作 $a$ 。其中，收益可以是点击数量。通过如下图所示的公式，可以基于线上策略 $\pi_0$ 的logged bandit feedback，评估目标策略 $\pi_\theta$ 的效果。同时，利用公式6（确定性的策略）得到最优的动作。

deterministic policy

为解决IPS方法的高方差问题，POEM[47]，BanditNet[17]以及PIL-IML[27]被提出，这些方法被统称为Counterfactual Risk Minimisation (CRM)（类）方法。他们引入方差消除项（sample variance penalisation (SVP)，例如，self-normalisation (SNIPS) or imitation learning (IML)来消除高方差的影响。实际上，它们是在限制新策略不会偏离线上策略太远，从而避免稀疏动作的不确定性带来的高方差。因此，会存在上一篇提到的，很难快速优化的问题，或者优化的收益有限。

此外，作者一些方法利用RL中用到的REINFORCE[50]来解决top- $K$ 推荐[4]和两阶段推荐流程优化[26]的问题。但是在作者的研究场景下（单个物品的点击和不点击），这些方法和IPS方法的表现没差。

Doubly Robust (DR)[6]，More Robust Doubly Robust (MRDR)[7]，Continuous Adaptive Blending (CAB)[44]等方法需要引入额外的收益估计模型，或者评估性能优于选取最优策略的性能，因此，不适用当前的研究场景（个人感觉，其实就是太复杂了，作者没有跟他们比较）。另外，online优化的方法，例如，contextual bandit，无法做到离线评估。

作者还提到，贝叶斯方法[33, 37]是一个很有潜力的方向，在其他场景取得了很不错的结果。

回顾一下，value-based损失函数和动作选取策略。可以看出，如果 $\boldsymbol{\beta} \equiv \boldsymbol{\theta}$ 。那么，上述policy-based策略（公式6）和value-based策略（公式3）实际上是一样的。虽然两种方法要优化的损失（公式1和公式5）是完全不同的。

value-base loss

value-based optimal policy

值得注意的是，

value-based方法（这里是MLE）忽略了倾向性得分（或者说忽略偏差）直接建模每种情况（每种动作）的目标收益（点击和不点击）；

policy-based方法（这里是contextual bandit）则利用倾向性的分纠正偏差，利用点击数据直接寻找新的最优策略，但是忽略了没有点击的数据。

作者也基于想到了结合两者，融合两者的优势，提升效果。

本节继续介绍policy-based方法的细节以及其他变种方法，回顾了valube-base方法和policy-base方法的异同。下一节介绍作者提出的DB方法。

心得体会

贝叶斯方法

贝叶斯方法一直是一个非常有前途的方向，在实际场景中，其实有一些先验知识是可以引入的。但是贝叶斯方法理论性相对复杂，研究也比较少（或许是我孤陋寡闻），所以工业界用的非常少。但是作者提到贝叶斯方法在小样本上效果不错（由于有先验），也许是可以尝试的。

文章引用

[4] M. Chen, A. Beutel, P. Covington, S. Jain, F. Belletti, and E. H. Chi. 2019. Top-K
Off-Policy Correction for a REINFORCE Recommender System. In Proc. of the 12th ACM International Conference on Web Search and Data Mining (WSDM ’19). ACM, 456–464.

[6] M. Dudík, J. Langford, and L. Li. 2011. Doubly Robust Policy Evaluation and Learning. In Proc. of the 28th International Conference on International Conference on Machine Learning (ICML’11). 1097–1104.

[7] M.Farajtabar,Y.Chow,andM.Ghavamzadeh.2018.MoreRobustDoublyRobust Off-policy Evaluation. In Proc. of the 35th International Conference on Machine Learning (ICML’18, Vol. 80). PMLR, 1447–1456.

[17] T.Joachims,A.Swaminathan,andM.deRijke.2018.DeepLearningwithLogged Bandit Feedback. In Proc. of the 6th International Conference on Learning Repre- sentations (ICLR ’18).

[26] J. Ma, Z. Zhao, X. Yi, J. Yang, M. Chen, J. Tang, L. Hong, and E. H. Chi. 2020. Off-Policy Learning in Two-Stage Recommender Systems. In Proc. of the 2020 World Wide Web Conference (WWW ’20). ACM.

[27] Y. Ma, Y. Wang, and B. Narayanaswamy. 2019. Imitation-Regularized Offline Learning. In Proc. of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS) (AIStats ’19, Vol. 89). PMLR, 2956–2965.

[33] S.Rendle,L.Zhang,andY.Koren.2019.OntheDifficultyofEvaluatingBaselines:
A Study on Recommender Systems. arXiv:1905.01395 [cs.IR]

[37] R. Salakhutdinov and A. Mnih. 2008. Bayesian Probabilistic Matrix Factorization Using Markov Chain Monte Carlo. In Proc. of the 25th International Conference
on Machine Learning (ICML ’08). ACM, 880–887.

[44] Y. Su, L. Wang, M. Santacatterina, and T. Joachims. 2019. CAB: Continuous Adaptive Blending for Policy Evaluation and Learning. In International Conference on Machine Learning (ICML’19). 6005–6014.

[47] A. Swaminathan and T. Joachims. 2015. Batch learning from logged bandit feedback through counterfactual risk minimization. Journal of Machine Learning
Research 16, 1 (2015), 1731–1755.

[50] R.J.Williams.1992.SimpleStatisticalGradient-FollowingAlgorithmsforConnec-
tionist Reinforcement Learning. Machine Learning 8, 3–4 (May 1992), 229–256.