因果推断推荐系统工具箱 - DLA（二）

2021-12-09 本文已影响0人 processor4d

文章名称

【SIGIR-2018】【UMass】Unbiased Learning to Rank with Unbiased Propensity Estimation

核心要点

文章旨在纠正L2R模型学习过程中受到的数据偏差的影响，优化首先估计propensity，随后估计相关性这种两阶段学习方法的性能。作者发现，从点击数据中估计propensity和unbiased learning-to-rank是对偶问题，并基于此提出了DAL同时学习无偏的排序模型和propensity模型。

上一节主要讲解了问题的定义，IPW方法和基于随机实验的估计方法，这一节讲解LDA方法的细节。

方法细节

问题引入

unbiased propensity estimation

假设文档 $x$ 与查询 $q$ 的相关性用随机变量 $r_q^x$ （估计作者利用 $y$ 来当做真实的标签，所以又单独找了一个随机变量来表示）。如前所述， $p(c_q^x = 1|\pi_q) = P(o_q^x = 1 | \pi_q)P(r_q^x=1 | \pi_q)$ 。那么问题在于，只观测到点击这个行为，我们并不能在不知道 $r_q^x$ 的情况下，估计 $o_q^x$ ，也不能在不知道 $o_q^x$ 的情况下，估计 $r_q^x$ （或许这里应该加一个单独估计，因为可以通过EM来同时估计两者。此外，还应该说明不做其他的干预，比如随机排序之类的）。从问题的角度看，这是一个难题，因为耦合在一起。但是作者却从另一个角度发现，估计 $o_q^x$ 和估计 $r_q^x$ ，这两个问题其实是对称的，因为估计 $r_q^x$ 被称为unbiased learning to rank，作者称估计 $o_q^x$ 为unbiased propensity estimation。

dual problem

如果把学习propensity的模型表示为 $E$ ，那么，类比于排序模型 $S$ ，propensity模型的全局损失目标如下图所示。

global loss of propensity learning model

假设我们只关注propensity模型的性能，那么 $l(E, q)$ 可以表示为如下图所示的公式。

l(E,q)

类比于unbiased learning to rank的IPW方法，可以得到所谓的Inverse Relevance Weighted，其公式如下图所示。

IRW

可以效仿IPW，证明IRW是对propensity的无偏估计，证明过程如下图所示。

proof of unbias of IRW

对比IPW和IRW，其实就是对调了 $P(o_q^x = 1 | \pi_q)$ 和 $P(r_q^x=1 | \pi_q)$ 的位置。那么，在unbiased learning to rank的时候，好的propensity模型可以帮助我们更好的估计相关性。在unbiased propensity estimation的时候，同理。

具体做法

Dual Learning Algorithm

DLA的学习框架中主要有4个组成部分，

$l(S, q)$
$l(E, q)$
$P(r_q^x = 1 | \pi_q)$
$P(o_q^x=1 | \pi_q)$

前两个是损失函数，后两个可以用是通用函数 $f_q^x(\theta), g_q^x(\phi)$ ，比如神经网络，其中 $\theta, \phi$ 是网络的参数。

一个重要的问题是，由于 $l(S, q)$ 和 $l(E, q)$ 只利用点击数据（也就是被观测到且相关的数据，相当于在对偶问题上只有正样本），那么点估计的损失是会失败的，因为毕竟我们需要训练一个排序模型。

所以，作者仿照[1]，利用基于softmax的list-wise损失，具体的公式表示如下图所示。并且作者把对 $P(r_q^x = 1 | \pi_q)$ 和 $P(o_q^x=1 | \pi_q)$ 的估计转换成了softmax的结果。

list-wise loss based on softmax-based cross entropy

probability based on softmax

值得注意的是，这样做引入一个问题，softmax让整个排序结果的审视概率和为1，实际情况却并不一定，不过不影响训练。

类似Intervention Harvesting和PRS（因果推断推荐系统工具箱 - PRS（一）），可以构造propensity ratio，不影响无偏估计，具体公式如下图所示，其中类似 $P(o_q^1=1 | \pi_q)$ 的概率表示排序结果中第一个文档的相关概率。

propensity ratio loss

最终，模型整体损失可以在所有观测数据上计算得到。

total loss

心得体会

损失只在点击样本上进行计算

文章讲解的比较清晰，梳理了IPW方法的使用和发展过程，并指出一个重点问题，只有点击数据对模型的训练做了贡献。因此IPW本身在数据利用率上比较低，并且没有挖掘到非点击数据的信息，可以帮助估计propensity（类似于点击和非点击互相验证，作者也就是从这个角度出发，探索新的方法）。

文章引用

[1] Thorsten Joachims, Laura Granka, Bing Pan, Helene Hembrooke, and Geri Gay. 2005. Accurately interpreting clickthrough data as implicit feedback. In Proceedings of the 28th annual ACM SIGIR. Acm, 154–161.

[2] Thorsten Joachims, Laura Granka, Bing Pan, Helene Hembrooke, Filip Radlinski, and Geri Gay. 2007. Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search. ACM Transactions on Information Systems 25, 2 (2007), 7.

[3] Mark T Keane and Maeve O’Brien. 2006. Modeling Result-List Searching in the World Wide Web: The Role of Relevance Topologies and Trust Bias. In Proceedings of the Cognitive Science Society, Vol. 28.

[4] Yisong Yue, Rajan Patel, and Hein Roehrig. 2010. Beyond position bias: Examining result attractiveness as a source of presentation bias in clickthrough data. In Proceedings of the 19th WWW. ACM, 1011–1018.