因果推断推荐系统工具箱 - Dual Bandit(三)
文章名称
【KDD-2020】【Adrem Data Lab/Criteo AI Lab】Joint Policy-Value Learning for Recommendation
核心要点
文章旨在提升现有基于off-policy或反事实学习的推荐模型的效率。作者分析首先分析现有方法在随机的、系数的奖励下效果不佳的原因,并提出一种IPS方法的对数变种,解决该问题。进一步,通过提升优化目标的凸性加速模型的优化求解。此外,基于一定假设,可以将CRM和MLE的目标结合,共同优化,提出了Dual Bandit。
上一节继续介绍policy-based方法的细节以及其他变种方法,回顾了valube-base方法和policy-base方法的异同。本节介绍作者提出的DB方法。
方法细节
问题引入
现有的bandit feadback方法在应用场景中应用时,一般是将推荐问题转化成对上下文进行分类,并计算损失。例如,把动作当做是对上下文的分类(这里有点绕,其实就是做某种判断),用户是否点击则被认为是收益(reward,如果用奖励感觉不如收益贴切)。与监督学习不同,我们其实没有未被曝光过的上下文-动作元组的真实收益,只能预测,所以强化学的框架更适合。并且,由于是对单个用户进行互不干涉的多次推荐(不考虑session的情况),期望最大化的是总体收益,因此符合bandit的设定(本质是利用exploitation-exploration来确定每一个动作的收益分布),这也是该类型问题被称作bandit feedback的原因[17, 27, 47]。值得注意的是,很多问题把现有的多分类转成了bandit feedback,也有研究将问题转化为多标签,因为用户可能有多种兴趣(也就是多种动作要混合)[48]。
另外,将推荐系统建模为bandit feedback需要注意以下几点,
- 收益是随机的,并非确定性的。例如,用户可能因为很多上下文中不包含的原因而点击或不点击物品(想象一下,购物时,想买手机,此时推荐了一本好书,没有点击,不是因为不喜欢而是因为想快速解决自己当前的购物)。
- 数据是稀疏的,并且treatment effect很小。数据稀疏主要是由于推荐物品量级大,用户规模大。treatment effect较小,是由于随机性(试想一下,一个手机支架,用户买的和没买的之间差距真的很大么?)。
- 选择困难性。因为动作空间太大了,收集到的数据又是bandit feedback,很难保证绝对准确。因此,对建模方法提出了很大挑战。
具体做法
假设推荐系统中相关性的真实分布服从伯努利分布,但是观测数据存在很大的随机性以及噪声,相关性不一定意味着点击,点击也不一定意味着被交互的物品是最相关的。IPS方法会让被点击的物品具有最大的相关性(这里指的是被曝光的物品纠正曝光偏差后,作者描述的是,即便被曝光了没有被交互的里边也有可能有相关性不低的,可以被理解为噪声吧),但是其他的物品则得到的相关性加成比较少。
IPS estimator如上图所示,IPS方法使用了类似REINFORCE的“log-trick”,对观测交互数据的分布进行reweighting,调权的权重为。但是上述目标的弊病是,有可能导致“赢家通吃”,其中最优策略将其全部概率(或者说预测的注意力)都放在有限训练样本中获得最高(历史)奖励的动作上。
Logarithmic IPS for Stochastic Rewards
为此,作者提出了一种对数估计器,其估计公式如下图所示。该方法不仅仅只把概率密度放在观测中交互的动作上,而是按比例的分配,因此可以考虑到最优和次优之间的差异(但是个人感觉可能需要比较多的样本,才能区分出真正的最优),由于每一个动作都能够分配到一定的概率密度(被选择的概率)因此,该方法可以减少过度拟合,并且具有更好的性能。
ln IPS estimator如果模型采用的是指数族分布,那么,整个分子可以被化简,相当于在对数空间中做线性优化。对数空间中的计算提高了优化过程的数值稳定性。并且,由于将目标转换为凸的,因此易于大规模优化。如下图所示,相比于,能够准确的拟合观测数据,但是有能够考虑到随机性,在最优策略周边也分配足够的概率密度。
comparison of IPS and ln IPS本节分析了推荐场景下,为什么更要关注随机性以及IPS方法在该场景下可能存在的问题,并介绍了作者提出的IPS的变种方法,Logarithmic IPS,以及其优势。下一节继续介绍value-base和policy-based的结合。
心得体会
多分类bandit feedback
Bandit feedback其实是比较适合推荐场景的假设,因为有曝光层面的漏斗,同时,针对不同的上下文-动作元组,是没有公认的ground-truth的。同时,监督学习时,我们利用随机样本的ground truth可以得到真实环境的(标签的,准确的说应该是)真实分布。然而,RL中,我们的策略决定了我们能看到的分布,这个也是推荐系统的特点。
此外,很多研究会把监督学习转化成bandit feedback来进行研究,因为我们可以确定grond truth来验证模型,具体参见[17]。
分配概率密度
文中提到,排位第一的物品和排位第二的物品,或者说用户交互的物品和没有交互的排位比较靠前的物品其实差异并没有特别大。因此,需要把策略的概率密度也分配给次优解一些。其实,类似于做一些噪声消除。这种做法的优势是,可以进一步消除马太效应(一部分马太效应是靠debias消除的)。
但是,个人理解,还是会有一些情况,次优就是比最优差很多,这种一般只能靠数据量大,真的把分布拟和好。同时,还需要按照一些细致的分类来建模,比如细碎的物品,什么手机支架之类的,差别就不大,但是手机可能差距就比较大。
最最重要的还是从数据出发,看看这种问题是否存在。
文章引用
[17] T.Joachims,A.Swaminathan,andM.deRijke.2018.DeepLearningwithLogged Bandit Feedback. In Proc. of the 6th International Conference on Learning Repre- sentations (ICLR ’18).
[27] Y. Ma, Y. Wang, and B. Narayanaswamy. 2019. Imitation-Regularized Offline Learning. In Proc. of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS) (AIStats ’19, Vol. 89). PMLR, 2956–2965.
[47] A. Swaminathan and T. Joachims. 2015. Batch learning from logged bandit feedback through counterfactual risk minimization. Journal of Machine Learning Research 16, 1 (2015), 1731–1755.
[48] A. Swaminathan and T. Joachims. 2015. The Self-Normalized Estimator for
Counterfactual Learning. In Advances in Neural Information Processing Systems.
3231–3239.