因果推断推荐系统工具箱 - CCF（一）

2021-12-29 本文已影响0人 processor4d

文章名称

【AAAI-2019】【Rutgers University】Causal Collaborative Filtering

核心要点

文章旨在将现有的基于相关性的协同过滤模型，扩展到基于因果的协同过滤模型，使得模型能够打破观测数据的边界，真正的估计那些没有被观测到的反事实结果。作者提出了一个通用的协同过滤框架CCF来建模推荐系统中的因果关系，并且表明原有的基于相关性的协同过滤模型是CCF的特例，是简化CCF因果图之后的结果。作者还提出了一个条件干预方法来模拟do-calculus，以此从观测数据中估计因果关系，并利用新提出的反事实约束学习框架估计用户对物品的偏好。

方法细节

问题引入

用户和物品分别记作 $u, v$ ， $y$ 表示对物品的偏好（点击或者购买）。传统的推荐模型建模的是相关关系，

基于物品流行度模型，假设 $p(y|u, v) \propto p(y|v)$ ，利用观测数据学习相关关系 $p(y|v)$ 。

基于用户的系统过滤，假设 $p(y|u, v) \propto \frac{1}{|N(u)|}\sum_{u \prime \in N(u)} y_{u\prime v}$ ，利用观测到的相似用户的评分估计用户对给定物品评分。

基于物品的系统过滤，假设 $p(y|u, v) \propto \frac{1}{|N(v)|}\sum_{v \prime \in N(v)} y_{u v\prime}$ ，利用观测到的该用户对相似物品的评分，估计该用户对给定物品评分。

基于矩阵分解的模型，假设 $p(y|u, v) \propto \boldsymbol{u}\top \boldsymbol{v}$ ，利用观测数据学习用户和物品的隐向量表示 $\boldsymbol{u}, \boldsymbol{v}$ ，并利用 $\boldsymbol{u}\top \boldsymbol{v} + b_u + b_v + b$ 估计该户对给定物品评分。

基于概率矩阵分解的模型，假设 $p(y|u, v) \propto \mathcal{N}(y|\boldsymbol{u}\top \boldsymbol{v}, \sigma^2)$ ，利用观测数据学习用户和物品的隐向量表示 $\boldsymbol{u}, \boldsymbol{v}$ ，并利用概率模型估计户对给定物品评分。

基于神经网络的模型，假设 $p(y|u, v) \propto NN(\boldsymbol{u}, \boldsymbol{v})$ ，利用观测数据学习神经网络参数，并利用神经网络估计户对给定物品评分。

但是，上述方法始终利用的是 $p(y|u, v)$ ，这一 pre-intervention 的相关关系，但为了估计反事实，我们需要的是估计推荐后 post-intervention 的因果效应，即 $p(y|u, do(v))$ 。

作者总结的因果图如下图所示，值得注意的是，通过简化因果图，作者把许多模型统一到了CCF的框架下。例如，

基于物品流行度模型，是简化 $p(y|u, do(v)) = p(y|u, v) = p(y|v)$ ，其因果图如下图子图a所示。

基于匹配方法的模型（包括协同过滤，矩阵分解和神经网络），是简化 $p(y|u, do(v)) = p(y|u, v)$ ，其因果图如下图子图b所示。由于用户和物品随机变量是外生的，所以，可以把do-calculus简化为相关关系。

Causal Embeddings for Recommendation (CausE) [1]，一种基于因果的嵌入表示学习方法，假设用户对物品的有因果影响（其实是用户偏好影响了推荐模型对物品的选择），其因果图如下图子图c所示。**此时，在估计因果关系时，没有简化 $p(y|u, do(v))$ 而是利用do-calculus，切断了 $U \rightarrow V$ 。

casual graph

除了因果关系建模的问题，如何估计 $p(y|u, do(v))$ 是基于因果的推荐方法需要解决的另一难题。

具体做法

依据上述分析，作者构建了因果图如Figure1中子图d所示，并且利用mediator分析作为条件干预方法，从观测数据中估计 $p(y|u, do(v))$ 。

本节描述了CCF框架的研究背景，以及如果把现有的基于相关关系的模型统一到因果推断的框架下。并且，介绍了CCF需要解决如何估计 $p(y|u, do(v))$ 的问题。下一节具体介绍估计 $p(y|u, do(v))$ 的细节。

心得体会

Causal Graph

作者从因果图的角度分析了现有基于相关关系的模型，捋清了脉络是亮点之一。其实，各种模型在建模时还有细微差别，都可以用不同的概率图结构描述，复杂度模型可能引入更多的随机变量，相关关系可以表示为无向图，所以概率图对因果学习来说还是很重要的，另外因果发现对因果图的依赖就更严重了。

文章引用

[1] Stephen Bonner and Flavian Vasile. 2018. Causal embeddings for recommendation. In Proceedings of the 12th ACM Conference on Recommender Systems. 104–112.