机器学习-算法理论

Causal Effect Estimation

2021-06-29  本文已影响0人  shudaxu

Causality & Correlation

D-Seperation的三种基本模式[2]

D-Seperation的泛化模式与路径Open/Block的定义[2]

形式化定义Causal Effect[4]

下述的内容给予假设的最基本的Causal Graph G
其DAG关系如下
X \rightarrow YX \leftarrow Z \rightarrow Y,(即Z为confounder)。

1、原生的P(Y|X)并不能直接表示因果效应。
P(Y|X)可以被解释为很多变量interaction的结果。其中一些是因果关系(causal),而另一些只是单纯的观察性关联(purely observational)。We can say that any statistically meaningful association is the result of a causal relationship somewhere in the system, but not necessarily of the causal effect of interest X \rightarrow Y

2、定义因果效应P(Y| do(x))
定义:P(Y| do(x)),如果我们外生地(exogenous)干涉X,能对Y造成影响,则这部分影响是我们关心的应果效应。这意味着我们必须在系统之外(outside the system)来改变X,从而影响Y。外生地改变X是为了避免系统其他变量带来的影响。

3、如何得到P(Y| do(x)):

4、得到泛化的Adjustment Formula:(即通过pre-intervention的概率分布,进行adjust,以获得causal effect)
P(Y|do(x)) =\sum_{z} P(Y,|X,PA=z) *P(PA=z),PA为X的父节点
即,找到X的父节点PA,然后conditioning on it,得到依赖PA的条件概率P(Y,|X,PA=z),再根据P(PA=z)计算其加权平均即可。
所以,其本质就是考虑其Parents的不同,获得加权平均。由于直接计算P(Y|X)的话,未考虑其Parents,很可能得出相反的结论,在[4]中的例子也有讲述。

5、别的手段:通过Randomized获得Causal Effect
其实我们进行完全随机试验,就是通过实验设计本身,消除指向X的Z。即实验组对照组仅有X不同。其他都是相同的,相当于X不受系统中任意的其他变量定义。这本身就是种外生地(exogenous)地修改X的手段。

Backdoor-criterion[5]

我们将上述的问题继续泛化一下。如果我们要通过Causal Graph得到P(Y|do(x)),我们需要Conditioning on哪些变量?

In Practice

关于Estimator的选择

Cautions:与Prediction的差异[6]

Prediction: Predict Y after observing X = x
Causation: Predict Y after setting X = x.
根据上述结论Backdoor Criterion,我们可以得到正确估计P(Y|do(x))的方法:
E(Y|do(X_1)) = \int_z p(Y|X_1,Z)p(z) dz 【1】
而在Prediction中:
E(Y|X =X_1) = \int_z p(Y,Z|X=X_1) dz
=\int_z p(Y|Z, X=X_1)p(Z| X=X_1) dz【2】
注意与【1】与【2】的区别。(根据Backdoor-Criterion,明显这里Z与X不是独立的,所以两者不相等)

关于大数据环境下,Confounding的存在方式

其实很多人考虑在现实生产中,在大数据覆盖了方方面面的情况下,我们是否已经可以对万物都建模,都用特征描述了,那Confounding是否存在,或者以什么方式存在?
这个问题其实非常简单,那就是unobserved feature。举个例子,我们的特征X包含用户的历史浏览点击记录,我们有个没有观测到的特征,比如用户近期经济状况Z。很好理解,Z不仅影响了用户的点击行为Y,同时也影响了用户的历史反馈特征X,而且,这样的特征通常我们都没有观察到,所以,我们的估计,潜在都存在Confounding Bias。(由于大部分系统是一个循环的生态系统,所以这些bias在某种程度也导致了推荐所谓的同质化,马太效应等等)
Feedback Loop Amplifies Biases[10]

Refer
[1] Causal Effect:
目录:https://david-salazar.github.io/post/
见:https://david-salazar.github.io/2020/07/22/causality-invariance-under-interventions/
见:https://blog.csdn.net/wangyf112/article/details/109347121#d-%E5%88%86%E5%89%B2%EF%BC%9A%E4%B8%AD%E6%96%AD%E4%BF%A1%E6%81%AF%E7%9A%84%E6%B5%81%E5%8A%A8
之前对bias有些粗浅的讨论:Causal Bias

[2]D-Seperation
见:https://david-salazar.github.io/2020/07/18/causality-bayesian-networks/
简略:https://blog.csdn.net/u014717398/article/details/53559247

[4]Causal Effect定义Intervention
见:https://david-salazar.github.io/2020/07/22/causality-invariance-under-interventions/
简略:https://blog.csdn.net/wangyf112/article/details/109482192

[5]Backdoor Criterion
见:https://david-salazar.github.io/2020/07/25/causality-to-adjust-or-not-to-adjust/
简略:https://blog.csdn.net/wangyf112/article/details/109661332

[6] Causal Inference CMU
http://www.stat.cmu.edu/~larry/=stat401/Causal.pdf
estimator的选择见2.1章节,在prediction中,bias and variance are not equally important.。优化loss function的时候,其实也同时优化了bias and variance。

[7]在小样本AB test 中,我们可以用随机AA实验 + 分层显著性校验,校验每一个分层的Y_A,Y_B是否有显著性差异。
interventional distribution:Identification of Conditional Interventional Distributions

[8]Nonparametric_regression
[Linear regression] is a restricted case of nonparametric regression where f(x) is assumed to be affine.
https://en.wikipedia.org/wiki/Nonparametric_regression

[9]Semiparametric_model
https://en.wikipedia.org/wiki/Semiparametric_model

[10]
Feedback Loop and Bias Amplification in Recommender Systems

上一篇下一篇

猜你喜欢

热点阅读