因果推断推荐系统工具箱 - CCF(一)
文章名称
【AAAI-2019】【Rutgers University】Causal Collaborative Filtering
核心要点
文章旨在将现有的基于相关性的协同过滤模型,扩展到基于因果的协同过滤模型,使得模型能够打破观测数据的边界,真正的估计那些没有被观测到的反事实结果。作者提出了一个通用的协同过滤框架CCF来建模推荐系统中的因果关系,并且表明原有的基于相关性的协同过滤模型是CCF的特例,是简化CCF因果图之后的结果。作者还提出了一个条件干预方法来模拟do-calculus,以此从观测数据中估计因果关系,并利用新提出的反事实约束学习框架估计用户对物品的偏好。
方法细节
问题引入
用户和物品分别记作,表示对物品的偏好(点击或者购买)。传统的推荐模型建模的是相关关系,
- 基于物品流行度模型,假设,利用观测数据学习相关关系。
- 基于用户的系统过滤,假设,利用观测到的相似用户的评分估计用户对给定物品评分。
- 基于物品的系统过滤,假设,利用观测到的该用户对相似物品的评分,估计该用户对给定物品评分。
- 基于矩阵分解的模型,假设,利用观测数据学习用户和物品的隐向量表示,并利用估计该户对给定物品评分。
- 基于概率矩阵分解的模型,假设,利用观测数据学习用户和物品的隐向量表示,并利用概率模型估计户对给定物品评分。
- 基于神经网络的模型,假设,利用观测数据学习神经网络参数,并利用神经网络估计户对给定物品评分。
但是,上述方法始终利用的是,这一 pre-intervention 的相关关系,但为了估计反事实,我们需要的是估计推荐后 post-intervention 的因果效应,即。
作者总结的因果图如下图所示,值得注意的是,通过简化因果图,作者把许多模型统一到了CCF的框架下。例如,
casual graph
- 基于物品流行度模型,是简化,其因果图如下图子图a所示。
- 基于匹配方法的模型(包括协同过滤,矩阵分解和神经网络),是简化,其因果图如下图子图b所示。由于用户和物品随机变量是外生的,所以,可以把do-calculus简化为相关关系。
- Causal Embeddings for Recommendation (CausE) [1],一种基于因果的嵌入表示学习方法,假设用户对物品的有因果影响(其实是用户偏好影响了推荐模型对物品的选择),其因果图如下图子图c所示。**此时,在估计因果关系时,没有简化而是利用do-calculus,切断了。
除了因果关系建模的问题,如何估计是基于因果的推荐方法需要解决的另一难题。
具体做法
依据上述分析,作者构建了因果图如Figure1中子图d所示,并且利用mediator分析作为条件干预方法,从观测数据中估计。
本节描述了CCF框架的研究背景,以及如果把现有的基于相关关系的模型统一到因果推断的框架下。并且,介绍了CCF需要解决如何估计的问题。下一节具体介绍估计的细节。
心得体会
Causal Graph
作者从因果图的角度分析了现有基于相关关系的模型,捋清了脉络是亮点之一。其实,各种模型在建模时还有细微差别,都可以用不同的概率图结构描述,复杂度模型可能引入更多的随机变量,相关关系可以表示为无向图,所以概率图对因果学习来说还是很重要的,另外因果发现对因果图的依赖就更严重了。
文章引用
[1] Stephen Bonner and Flavian Vasile. 2018. Causal embeddings for recommendation. In Proceedings of the 12th ACM Conference on Recommender Systems. 104–112.