Lecture1

2021-05-19 本文已影响0人数科每日

image.png

开场

1. 因果关系很重要 !

image.png

讲着这里举了一个例子： x 轴是某个基因的活跃程度， y轴是该物种的某种性状（这里没说二者相关）。可以看到，两个图中，数据点的分布非常相似，都是明显的线性相关。这时讲者提出一个问题：根据现有数据（图中红色圆点），请给出0点处 y 对应的值。

在不知道x 和 y因果关系的时候，只能通过相关性做线性回归，预测如左图所示。但是对于右图而言，实际情况可能是红色竖线所示。原因是，有另外一个因素，同时影响了 x， y。右图中红色数据点给出的不是趋势，而是y 的取值范围。根据这个例子，作者想说明2个道理

在相关性的前提下，超出既有数据范围以外的预测，是很危险的。（在上图中，既有数据点x 值范围在（2,8），这时预测 x=0 时 y 的值，是不靠谱的。）
在不知道因果关系的时候，我们对数据的利用是有限的，而且是容易出错的。

2. 什么是因果模型

image.png

如果你有一个因果模型（例如结构化因果模型 SCM），那么就意味着你可以知道：

y 的概率分布
因果图
干预因素，以及干预因素的分布
反事实

3. 讲者在因果推断上的研究范围

模型是如何工作的？
如果有隐藏的变量或者反馈，该如何处理？
什么是好的图表示？
是否能够测试反事实陈述？
能不能从数据中直接提取因果图？
因果模型是否有用？对机器学习，统计？

4. 因果，统计，数据的关系

image.png

如果有因果模型（causal modle）那么可以通过因果推理(causal reasoning) 得出观测数据，结果以及干预效果
如果有观测数据，结果以及干预效果，那么可以通过因果学习/发现 (causal learning / discovery) 来获得因果模型（causal modle）
因果模型（causal modle）包含了统计模型（probilistic model）
上面的框的数据，干预种类更多，自然包括了下面的部分
从数据到统计模型，这个过程叫统计学习（statistical learning），也叫机器学习（machine learning）
从统计模型到数据：统计推理。

这里要注意的是2和5。对于 5 来说，如果存在无限多的数据，那么就很容易得到统计模型。当然，现实中不存在无限多的数据，但是大数据是一个很好的近似。也就是说，在有了大数据的情况下，统计模型可以很容易获得。但是2就不一样了，即使你有无限多的数据，也不能轻易的得到因果模型，这个步骤要难的多。

第一部分因果语言表示和因果推理

例1

image.png

这是一个简单的例子，里面只包括2个变量，一个因一个果。例如海拔（altitude）和温度（temperature）。左面方框中，因果常用写法
$X:= N_{x}$ : X 是一个符合标准正态分布的随机变量（比如，不同地点的海拔）
$Y:= -6X + N_{y}$ : X， Y 不独立，Y 是果， X 是因，最后的 $N_{y}$ 代表噪声

对X的干预

当对X进行干预，使得 X=3 时。 Y的分布就变成

$Y {\sim} N(-18,1)$

对Y的干预

当对Y进行干预，使得 $Y {\sim} N(2,2)$

而这时， X 的分布依然是 $X {\sim} N(1,0)$ 。因为 X 是因， Y 是果，在因果模型中不能反向推导。举例解释：如果通过暖气让温度上升，这时 Y （tempeture ）的分布就会发生变化，但是这并不会改变当地的海拔（X）。

例2

image.png

一个相对复杂的例子：

$G_{0}$ 是一个无环图
$f(\cdot)$ 代表某种函数

干预 $X_{1}$ 让其等于 0，记作 $P_{do(X_{1} := 0)}$

这时，上图结构变成如下图

注意指向 $X_{1}$ 的箭头消失了，因为它被干预了，也就是说，被人为设定了，因此就不在受到他的 cause 影响了。

image.png

下图中，当对 $X_{4}$ 进行干预时，指向它的箭头也消失了。

image.png

注意，以下两种写法代表不同的意思

$P_{do(X_{4} := 13)}$ : 人为进行干预，会阻断因果链条
$P(\cdot| X_{4} = 13)$ ：自然发生行为，不会阻断因果链条

例3 肾结石

这里给出了因果模型，假设它已知。在这里，治疗方案（treatment）会受到结石大小影响（大结石用贵方案，小结石用便宜的方案）。治疗结果（recovery）同时受到结石大小（size of stone），和治疗方案（treatment）影响。这里假设结石越大，治疗结果；贵的方案，治疗结果好。

image.png

当干预了治疗方案（treatment）以后，上面的因果图就变成了下面的图

image.png

下图中，给出了 A ， B 方案的数值，已经干预前后的因果图。

注意1: A ， B 方案出现了博克森悖论，在单项上(Small Stone & Large Stone) A方案都好于B方案，但是在总体治疗效果上 B 方案却优于 A 方案。

注意2: 下图中，存在 $P(R|S, T) = P_{do(T := A)}（R| S, T）$ 也就是说，对于 Recovery 来说，是否控制 Treatment ，并不会影响他和结石大小（size of stone）和治疗方案（treatment）的关系。

image.png

下图计算了，当干预 T=A时，病人痊愈（Recovery = 1）的期望.
计算结果

$E_{do(T := A)} = 0.832$
$E_{do(T := B)} = 0.782$

这意味着，治疗方案 A要优于治疗方案B

注意 1: 这里用到了上面提到的关系式 $P_{do(T := A)}（R| \cdot）= P(R| \cdot, T=A)$
通过消除 $do(\cdot)$ 运算符，使得可以计算干预后的期望值 $E_{do(T := A)}$

注意 2: 从上图推导出来

$P(R=1 | T=A) = 0.78$
$P(R=1 | T=B) = 0.83$
也就是说， $E_{do(T := A)} \neq P(R=1 | T=A)$ ， $P(R=1 | T=A)$ 是没有干预情况下的观察结果。

注意 3: 基于干预的期望 $E_{do(T := A)} ， E_{do(T := B)}$ 得出的结论是 A 的疗效更好。而基于观察（ $P(R=1 | T=A)， P(R=1 | T=B)$ ）得出的结论是 B 疗效好。两个结论是对立的。而仔细看分项目时（Small Stone & Large Stone）, 每个分项目又都是 A 好。正确的答案是 A好，这里存在博克森悖论。导致（ $P(R=1 | T=A)， P(R=1 | T=B)$ ）得出的结论是 B 疗效好的原因在于， B方案治疗大大量的 Small Stone （容易的病例）。由此可以得出：
基于控制得出的结论，比观察得出的结论更靠谱

image.png

由上面式子引出的定义（来源于 Perl 的书）

image.png

关于因果强弱的定义

讲着给出了关于Casual 强弱的定义
$C_{X->Y} := \frac{\partial}{\partial x} E_{do (X := x)}[Y]$

在干预X的情况下，当X变动一点点时， Y变化越大 C越大，意味着 X， Y 的因果强度越大。

例4

在本例中，如果要测算 X 对Y的影响，不能直接用回归 $Y \sim X$ 。因为存在一个后面路径： $X \leftarrow A \rightarrow K \rightarrow Y$ ，这种情况下，需要在后面路径上的一点，进行干预，比如 $A, K$

image.png

例5

这个例子，提到在 1950年代，一个关于吸烟和肺癌关系的质疑，就是认为存在同时影响吸烟（Smoking）和肺癌（Cancer）的因素，而当时提到的X因素是基因。如果存在一种基因，一方面导致携带该基因的人爱抽烟，同时也更容易患肺癌，那么就不能说吸烟导致了肺癌。如果这种基因存在，而且有效，那么就是吸烟基因同时导致了吸烟和肺癌。而在1950年代，基因只是被发现，并无法检测，所以这就给禁烟造成了很大的困扰。

image.png

例6

James Lind 利用随机实验治疗坏血病的例子。只要进行随机，就可以斩断所有 X Parents 的影响，从而得出正确的关系。

image.png

最后，给了一个关于因果模型等价的定义 Equivalence of causal model

image.png

Lecture1

开场

1. 因果关系很重要 !

2. 什么是因果模型

3. 讲者在因果推断上的研究范围

4. 因果，统计，数据的关系

第一部分因果语言表示和因果推理

例1

对X的干预

对Y的干预

例2

例3 肾结石

关于因果强弱的定义

例4

例5

例6

猜你喜欢

热点阅读

Lecture1

开场

1. 因果关系很重要 !

2. 什么是因果模型

3. 讲者在因果推断上的研究范围

4. 因果，统计，数据 的关系

第一部分 因果语言表示和因果推理

例1

对X的干预

对Y的干预

例2

例3 肾结石

关于因果强弱的定义

例4

例5

例6

猜你喜欢

热点阅读

4. 因果，统计，数据的关系

第一部分因果语言表示和因果推理