因果推断推荐系统工具箱 - ACL（一）

2021-12-25 本文已影响0人 processor4d

文章名称

【NIPS-2020】【Walmart Labs】Adversarial Counterfactual Learning and Evaluation for Recommender System

核心要点

文章旨在解决部分混淆变量不可观测，导致IPS方法在推荐系统中应用时不满足可识别性原理的问题。作者提出了a minimax empirical risk框架，利用两个推荐模型来模拟松弛后的对偶问题，进而解决曝光偏差对预估推荐结果的影响。

方法细节

问题引入

观测数据是受到线上推荐模型影响的，有偏差的数据。利用该数据直接进行监督学习不可避免的造成估计偏差，并且无偏模型估计要求模型考虑曝光倾向，也就是需要乘以一个曝光概率，但是这个曝光概率（也就是propensity score）一般没有记录，需要估计，且很难估计准确。这导致虽然离线评估效果很好，但是实际线上效果偏差较大。

虽然，可以从反事实的角度来学习和评估模型。但是这些反事实方法的一些假设很难满足。例如，要求观测到全部confounder。并且，最终的曝光可能有很大的噪声，甚至没有被完全记录。

基于此，作者提出一种基于对抗训练的方法，把因曝光机制不明确导致的估计不确定性考虑进来。

具体做法

首先，形式化的定义一下问题，

用户和物品特征，可以是one-hot也可以是embedding，被记作 $\boldsymbol{x}_u, \boldsymbol{z}_i$ 。

物品的曝光情况，记作 $O_{u,i} \in \{ 0, 1 \}$ 。

用户-物品元组的反馈，记作 $Y_{u,i}$ ，也可以是点击，也可以是评分。

数据集记作 $\mathcal{D}$ ，其中负样本可以是全部未交互物品，也可以是负采样的样本。

推荐模型，记作 $f_{\theta}, g_{\psi}$ ，其中作者用 $g$ 作为曝光估计模型（实际上可以理解为线上的推荐模型，作者利用两个模型来对抗学习）。

模型损失，记作 $\delta(y_{u,i}, f_{\theta}(u,i))$ ，其中 $y_{u,i}$ 是观测的用户反馈。

整个形式化比较常规，值得注意的是， $p_g(O_{u,i}|\boldsymbol{x}_u, \boldsymbol{z}_i)$ 表示在模型 $g$ 的情况下，物品被曝光给该用户的概率 $p(Y_{u,i}| O_{u,i}, \boldsymbol{x}_u, \boldsymbol{z}_i)$ 表示用户可能的反馈的概率，当观测到随机变量 $O_{u,i}$ 时，该概率和曝光机制是相互独立的（也就是所谓的没有曝光的confounder了）。

Supervised learning for feedback data.

假设 $Y_{u,i} \in \{-1, 1 \}$ 表示用户的隐式反馈，监督学习通过优化如下图所示的损失学习模型参数。此时，没有考虑曝光的机制。其中， $\phi(\cdot)$ 常用的损失函数。

supervised loss

当考虑曝光机制的影响时，监督学习的损失与如下图所示的两个联合概率有关，即在不同曝光情况下，用户的正负反馈的概率。

supervised loss with exposure mechanism

作者分析当曝光机制故定时，通过优化监督学习损失函数得到的最优的模型只与上述两个联合概率有关系，详细证明参见附录，其中，如claim 1所述 $\alpha^*_\phi$ 是某个依赖 $\phi$ 的函数。

Claim 1

值得注意的是，上述联合概率可以被分解为如下图所示的比率式。

factorized joint distribution

在这种情况下，由claim 1可以得到如下图所示的最优模型和条件概率的关系，可以看出最优模型是在观测曝光情况下正负反馈的比值，注意此时曝光机制必须可以观测并且固定。

optimal model implied from claim 1

通过如上分析，可以得到如下结论，

最优损失函数 $-D_c(P^{(1)}||P^{(-1)})$ 与曝光机制和用户偏好相关。

最优的模型 $f^*_{\theta}$ 仅仅与用户偏好有关系，即 $f^*_{\theta}$ 是 $p(Y_{u,i}| o_{u,i}, \boldsymbol{x}_u, \boldsymbol{z}_i)$ 的函数，**注意，这里是小写 $o$ 是观测值而不是随机变量。